好未来开源首个在线教学中文预训练模型

GitHub精选

共 1307字,需浏览 3分钟

 · 2020-12-26

【公众号回复 “1024”,免费领取程序员赚钱实操经验】


大家好,我是章鱼猫。

今天推荐的这个项目是「edu-bert」,是好未来开源的教育领域首个在线教学中文预训练模型 TAL-EduBERT。

背景

在线教育领域 NLP 的研究、应用和发展有两大挑战:

  • 一是从音视频转录出来的文本数据中,存在着较多的 ASR 错误,这些错误可能会对文本处理相关任务的效果造成较大的影响;

  • 二是数据中含有大量的教育领域特有的专有词汇,现有的通用领域的开源词向量和开源预训练语言模型(如 Google BERT Base,Roberta 等)对于这些词汇的语义表示能力有限,进而会影响后续任务的效果。

为了帮助解决这两个问题,好未来 AI 中台机器学习团队从多个来源收集了超过 2000 万条(约包含 3.8 亿 Tokens)的教育领域中文 ASR 文本数据,基于此建立了教育领域首个在线教学中文预训练模型 TAL-EduBERT,并把其推至开源。

模型结构

TAL-EduBERT 在网络结构上,采用与 Google BERT Base 相同的结构,包含 12 层的 Transformer 编码器、768 个隐藏单元以及 12 个 multi-head attention的head。之所以使用 BERT Base 的网络结构,是因为考虑到实际使用的便捷性和普遍性,后续会进一步开源其他教育领域 ASR 预训练语言模型。

训练语料

TAL-EduBERT 所采用的预训练语料,主要源于好未来内部积淀的海量教师教学语音经 ASR 转录而得到的文本,对于语料进行筛选、预处理后,选取了超过 2000 万条教育 ASR 文本,大约包含 3.8 亿 Tokens。

预训练方式

适用范围

相较于 Google BERT Base和Roberta,TAL-EduBERT 基于大量教育 ASR 文本数据训练,因此对于 ASR 的识别错误具有较强的鲁棒性,并且在教育场景的下游任务上也具有较好的效果。鉴于此,推荐从事教育,并且工作内容与 ASR 文本相关的 NLP 算法工程师使用我们的模型,希望能通过本次的开源,推进自然语言处理在教育领域的应用和发展。

使用方法

与 Google 发布的原生 BERT 使用方式一致,支持 transformers 包,因此在使用时,直接进行模型路径替换即可。

开源项目地址:https://github.com/tal-tech/edu-bert

开源项目组织:好未来技术

推荐阅读:

重磅推荐:一个有趣的英语学习扩展程序

简直牛逼,那些对软件开发人员有用的定律、理论、原则和模式

重磅推荐:一个也许能骗到黑客的系统

---特别推荐---

特别推荐:一个新的优质的推荐高效工具,软件,插件的公众号,每天给大家分享优秀的效率工具,「程序员掘金」,专门为程序员挖掘好东西的一个公众号,非常值得大家关注。

浏览 29
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报