spaCyNLP 自然语言文本处理库
spaCy 是一个 Python 和 CPython 的 NLP 自然语言文本处理库。它建立在最新的研究基础上,从设计的第一天起就被用于实际产品中。
spaCy 自带预训练的管道,目前支持 60 多种语言的标记化和训练。它具有最先进的速度和神经网络模型,可用于标记、解析、命名实体识别、文本分类等,使用 BERT 等预训练的变换器进行多任务学习,以及生产就绪的训练系统和简单的模型打包、部署和工作流管理。
特性:
- 支持 60 多种语言
- 经过训练的管道可以处理不同的语言和任务
- 使用像 BERT 这样的预训练变压器进行多任务学习
- 支持预训练的单词向量和嵌入
- 最先进的速度
- 生产就绪培训系统
- 语言驱动的标记化
- 用于命名实体识别、词性标记、依存关系分析、句子分段、文本分类、词义化、形态分析、实体链接等的组件
- 使用自定义组件和属性可轻松扩展
- 支持 PyTorch、TensorFlow 和其他框架中的自定义模型
- 内置用于语法和 NER 的可视化工具
- 易于模型打包、部署和工作流管理
- 可靠的、经过严格评估的精确度
评论