jieba,宇宙最强Python分词工具使用指南
数据森麟
共 1253字,需浏览 3分钟
· 2019-12-24
作者:刘志军
来源:Python之禅
结巴分词是Python语言中最流行的一个分词工具,在自然语言处理等场景被广泛使用。
因为GitHub写的文档太啰嗦,所以整理了一个简版的入门使用指南,看完可直接上手
安装
pip install jieba
简单分词
import jieba
result = jieba.cut("我爱中国北京大学")
for word in result:
print(word)
输出
我
爱
中国
北京大学
句子切分成了5个词组。
全模式分词
result = jieba.cut("我爱中国北京大学", cut_all=True)
for word in result:
print(word)
输出
我
爱
中国
北京
北京大学
大学
全模式分出来的词覆盖面更广。
提取关键词
从一个句子或者一个段落中提取前k个关键词
import jieba.analyse
result = jieba.analyse.extract_tags("机器学习,需要一定的数学基础,需要掌握的数学基础知识特别多,"
"如果从头到尾开始学,估计大部分人来不及,我建议先学习最基础的数学知识",
topK=5,
withWeight=False)
import pprint
pprint.pprint(result)
输出
['数学', '学习', '数学知识', '基础知识', '从头到尾']
topK 为返回前topk个权重最大的关键词
withWeight 返回每个关键字的权重值
去掉停止词
停止词是指在句子中无关紧要的词语,例如标点符号、指示代词等等,做分词前要先将这些词去掉。分词方法cut
不支持直接过滤停止词,需要手动处理。提取关键字的方法 extract_tags
支持停止词过滤
# 先过滤停止词
jieba.analyse.set_stop_words(file_name)
result = jieba.analyse.extract_tags(content, tokK)
file_name 的文件格式是文本文件,每行一个词语
官方地址:https://github.com/fxsjy/jieba
◆ ◆ ◆ ◆ ◆
长按二维码关注我们
数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。
管理员二维码:
评论
义宁镇
地名由来:因清代为义宁州治所,故名义宁。2022年10月,2022年淘宝镇名单发布,义宁镇上榜。2021年10月,南京大学空间规划研究中心、阿里研究院联合发布2021年淘宝镇名单,义宁镇榜上有名。20
义宁镇
0
洪坑村
洪坑村在永福镇中西部,与镇驻地永福圩直距5公里。辖洪坑、田头、半岭、淇洋、甲洋、下雷石、蜘蛛形、弯丘等自然村,村委会设洪坑。包括废村总面积约32平方公里。聚落崇山坡地及深谷间,呈散落状。有216户85
洪坑村
0
洪坑村
2013年8月,洪坑村被列入第二批中国传统村落名录。洪坑村下辖3个自然村,10个村民小组,全村902户,3068人,占地面积约130公顷,是明末清初古村落,村落格局完整、布局奇特,屋舍错落有致。主体是
洪坑村
0
洪坑村
2021年1月,洪坑村被认定为2020年度安徽省美丽乡村示范村。2020年12月,洪坑村入选2020年度安徽省森林村庄。2019年6月,洪坑村被列入第五批中国传统村落名录。洪坑村是黄山市徽州区岩寺镇一
洪坑村
0