首个在线教学中文预训练模型TAL-EduBERT

机器学习AI算法工程

共 3867字,需浏览 8分钟

 · 2021-10-26


向AI转型的程序员都关注了这个号👇👇👇

机器学习AI算法工程   公众号:datayx


一、背景及下载地址

1. 背景

2020年初Covid-19疫情的爆发对各行各业产生了不可小觑的影响,也让以线下方式为主的传统教育在短期内受到了极大的冲击,更多人开始看到科技对教育市场的价值。在线教育成为了特殊时期教学的最佳选择,大规模地渗透至每一所学校、每一个家庭。在线教育的爆火使得教育行业产生了海量的在线教学语音识别(Automatic Speech Recognition,以下简称ASR)文本数据,极大地推动了教育领域技术的发展。

数据作为产业最为核心和宝贵的资源之一,更是自然语言处理技术(Natural Language Processing,以下简称NLP)在各个领域得以应用和发展的基础。在线教育文本数据有着区别于通用场景数据的特有属性,给在线教育领域NLP的研究、应用和发展带来了极大的挑战,一是从音视频转录出来的文本数据中,存在着较多的ASR错误,这些错误可能会对文本处理相关任务的效果造成较大的影响;二是数据中含有大量的教育领域特有的专有词汇,现有的通用领域的开源词向量和开源预训练语言模型(如Google BERT Base[1],Roberta[2]等)对于这些词汇的语义表示能力有限,进而会影响后续任务的效果。

为了帮助解决这两个问题,好未来AI中台机器学习团队从多个来源收集了超过2000万条(约包含3.8亿Tokens)的教育领域中文ASR文本数据,基于此建立了教育领域首个在线教学中文预训练模型TAL-EduBERT,并把其推至开源。

从2018年谷歌发布预训练模型BERT以来,以BERT为代表的预训练语言模型, 在各个自然语言处理任务上都达到了SOTA的效果。并且作为通用的预训练语言模型,BERT的出现,使得NLP算法工程师不需要进行繁重的网络结构的修改,直接对于下游任务进行fine-tune,便可得到比以往的深度学习方法更好的效果,显著的减轻了NLP算法工程师的繁重的调整模型网络结构的工作,降低了算法应用的成本,预训练语言模型已经成为工作中不可或缺的一项基础技术。

但是,当前开源的各类中文领域的深度预训练模型,多是面向通用领域的应用需求,在包括教育在内的多个垂直领域均没有看到相关开源模型。相较于谷歌发布的Google BERT Base以及开源的中文Roberta模型,好未来本次开源的TAL-EduBERT在多个教育领域的下游任务中得到了显著的效果提升。好未来希望通过本次开源,助力推动 NLP技术在教育领域的应用发展,欢迎各位同仁下载使用。

    项目 代码 获取方式:

    关注微信公众号 datayx  然后回复 在线教学 即可获取。

2. 模型下载

下载地址:

pytorch版:https://ai.100tal.com/download/TAL-EduBERT.zip

tensorflow版:https://ai.100tal.com/download/TAL-EduBERT-TF.zip

二、 模型结构及训练数据

1. 模型结构

TAL-EduBERT在网络结构上,采用与Google BERT Base相同的结构,包含12层的Transformer编码器、768个隐藏单元以及12个multi-head attention的head。之所以使用BERT Base的网络结构,是因为我们考虑到实际使用的便捷性和普遍性,后续会进一步开源其他教育领域ASR预训练语言模型。

2. 训练语料

TAL-EduBERT所采用的预训练语料,主要源于好未来内部积淀的海量教师教学语音经ASR转录而得到的文本,对于语料进行筛选、预处理后,选取了超过2000万条教育ASR文本,大约包含3.8亿Tokens。

3. 预训练方式



如上图所示,TAL-EduBERT采取了与BERT相同的两种预训练任务来进行预训练学习,分别是教育领域字级别任务(Masked Language Modeling,简称MLM)和句子级别的训练任务(Next Sentence Prediction,简称NSP),通过这两个任务,使得TAL-EduBERT能够捕获教育ASR文本数据中的字、词和句子级别的语法和语义信息。

三、 下游任务实验结果

为了证明TAL-EduBERT在下游任务上的效果,我们从实际业务中抽取了4类典型的在线教育领域教学行为预测任务数据集,详见文献[3][4]。在此基础上,我们与Google BERT Base这一在中文领域应用最为广泛的模型以及效果较好的Roberta做了对比,实验结果表明,TAL-EduBERT在教育ASR下游任务上取得了较好的效果。

1. 实验简介:教师行为预测

此任务来源于我们对老师的教学行为进行智能化的评估,具体我们评估了四项教师行为,分别是引导学生进行课后总结(Conclude)、带着学生记笔记(Note)、表扬学生(Praise)和提问学生(QA)。通过对教师教学行为进行分类,给老师打上行为标签,从而更方便地分析老师教学行为,进而辅助老师更好地教学,提升教学质量。


四、 适用范围、使用方法及使用案例

1. 适用范围:

相较于Google BERT Base和Roberta,TAL-EduBERT基于大量教育ASR文本数据训练,因此对于ASR的识别错误具有较强的鲁棒性,并且在教育场景的下游任务上也具有较好的效果。鉴于此,我们推荐从事教育,并且工作内容与ASR文本相关的NLP算法工程师使用我们的模型,希望能通过本次的开源,推进自然语言处理在教育领域的应用和发展。

2. 使用方法:

与Google发布的原生BERT使用方式一致,支持transformers包,因此在使用时,直接进行模型路径替换即可。

3.使用案例:


五、 小结

为了证明TAL-EduBERT在教育领域下游任务的优势,我们从教育场景中的四类业务问题和数据入手进行了对比实验,对比Google BERT Base和Roberta这两种通用领域的预训练模型可知,TAL-EduBERT效果显著提升,在F1上最高提升大约3个百分点。因此,想要在教育领域进行NLP相关方向探索的技术伙伴可以直接使用TAL-EduBERT开展更专业地教育技术实践训练。



机器学习算法AI大数据技术

 搜索公众号添加: datanlp

长按图片,识别二维码




阅读过本文的人还看了以下文章:


TensorFlow 2.0深度学习案例实战


基于40万表格数据集TableBank,用MaskRCNN做表格检测


《基于深度学习的自然语言处理》中/英PDF


Deep Learning 中文版初版-周志华团队


【全套视频课】最全的目标检测算法系列讲解,通俗易懂!


《美团机器学习实践》_美团算法团队.pdf


《深度学习入门:基于Python的理论与实现》高清中文PDF+源码


《深度学习:基于Keras的Python实践》PDF和代码


特征提取与图像处理(第二版).pdf


python就业班学习视频,从入门到实战项目


2019最新《PyTorch自然语言处理》英、中文版PDF+源码


《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码


《深度学习之pytorch》pdf+附书源码


PyTorch深度学习快速实战入门《pytorch-handbook》


【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》


《Python数据分析与挖掘实战》PDF+完整源码


汽车行业完整知识图谱项目实战视频(全23课)


李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材


笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!


《神经网络与深度学习》最新2018版中英PDF+源码


将机器学习模型部署为REST API


FashionAI服装属性标签图像识别Top1-5方案分享


重要开源!CNN-RNN-CTC 实现手写汉字识别


yolo3 检测出图像中的不规则汉字


同样是机器学习算法工程师,你的面试为什么过不了?


前海征信大数据算法:风险概率预测


【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类


VGG16迁移学习,实现医学图像识别分类工程项目


特征工程(一)


特征工程(二) :文本数据的展开、过滤和分块


特征工程(三):特征缩放,从词袋到 TF-IDF


特征工程(四): 类别特征


特征工程(五): PCA 降维


特征工程(六): 非线性特征提取和模型堆叠


特征工程(七):图像特征提取和深度学习


如何利用全新的决策树集成级联结构gcForest做特征工程并打分?


Machine Learning Yearning 中文翻译稿


蚂蚁金服2018秋招-算法工程师(共四面)通过


全球AI挑战-场景分类的比赛源码(多模型融合)


斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)


python+flask搭建CNN在线识别手写中文网站


中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程



不断更新资源

深度学习、机器学习、数据分析、python

 搜索公众号添加: datayx  


浏览 32
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报