GitHub 上有哪些有趣的关于 NLP 的Python项目?

Python大数据分析

共 922字,需浏览 2分钟

 ·

2022-03-08 08:28

知乎上有人提问:GitHub 上有哪些有趣的关于 NLP 的Python项目?

先来说说什么是NLP?

自然语言处理(NLP)的重点是使计算机能够理解和处理人类语言。计算机擅长处理结构化数据,如电子表格;然而,我们写或说的很多信息都是非结构化的。

自然语言处理的目标是使计算机能够理解非结构化文本并从中提取有意义的信息。多亏了spaCy和NLTK等开源库,我们只需几行Python代码就可以实现许多NLP技术。

说到Github上的NLP项目,这里强烈推荐一个36.9K star的仓库:「funNLPPublic」

https://github.com/fighting41love/funNL

这是一个中文NLP项目,作者声称是NLP民工的乐园: 几乎最全的中文NLP资源库

我仔细看了该项目资源的结构,主要是分为各类行业词库、语料库、分词处理工具、语义判别工具、正则应用工具、NLP开源算法、行业技术报告、各种NLP处理框架等等

凡是中文领域NLP沾边的地方,作者通通汇总了相关资源,对初学者来说是不错的一个检索仓库。

虽然看起来比较乱,作者没有去做详细的归类,但良心在于很全,能让你轻松地玩转各种nlp知识,也不失趣味。

下面分别举例一些资源,供大家参考,详细的可以去github仓里自行查找

行业词库、语料库(IT、汽车、医学、动物、财经、法律等)

NLP论文、行业报告

PDF文档处理

语音处理工具

行业应用场景

nlp框架和工具

当然上述案例只是该项目的一小部分,我看了下总共有将近400个NLP资源,非常全。

其他关于NLP的好项目也很多,比如NLP-progress、HanLP、spaCy、jina等等,大家可以自己去探索下。

加入知识星球【我们谈论数据科学】

500+小伙伴一起学习!








· 推荐阅读 ·

盘点2021最佳数据可视化作品

「Python实用秘技04」pdf文件批量添加文字水印

新一代Python包管理工具来了


浏览 36
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报