Facebook最新语言模型XLM-R:多项任务刷新SOTA,超越单语BERT-轻识

新智元报道

来源：Facebook AI

编辑：肖琴

【新智元导读】Facebook AI最新推出一个名为XLM-R的新模型，使用100种语言、2.5 TB文本数据进行训练，在多项跨语言理解基准测试中取得了SOTA的结果，并超越了单语言的BERT模型。代码已开源，来新智元 AI 朋友圈获取吧~

Facebook AI近日发布一个名为XLM-R的新模型，使用100种语言、2.5 TB文本数据进行训练，在四项跨语言理解基准测试中取得了迄今最好的结果。

Yann LeCun在Twitter上赞赏该研究

XLM-R使用自我监督(self-supervised)的训练技术实现了跨语言理解的SOTA性能。在这项任务中，用一种语言对模型进行训练，然后将模型用于其他语言，而不需要额外的训练数据。

XLM-R模型通过合并更多的训练数据和语言(包括缺乏标签的的低资源语言和未标记的数据集)，改进了以前的多语言方法。

在论文“Unsupervised Cross-lingual Representation Learning at Scale”中，研究人员全面分析了无监督多语言掩码语言模型的能力和限制，特别是研究了高资源/低资源和传输/干扰的权衡，并揭示了所谓的“多语言的诅咒”。

XLM-R在四个跨语言理解基准测试中取得了迄今为止最好的结果，在XNLI跨语言自然语言推理数据集上的平均准确率提高了4.7%，在最近推出的MLQA问题回答数据集上的平均F1得分提高了8.4%，在NER数据集上的平均F1得分提高了2.1%。

经过大量的实验和消融研究，研究人员证明了XLM-R是第一个优于依赖预训练模型的传统单语言基线模型的多语言模型。具体而言，多语言模型通过在微调时利用多语言的训练集，可以超越单语言的BERT模型。

这项研究的代码和模型已经开源，点击进入新智元小程序获取：接下来带来这项研究的主要方法和结果。

XLM-R身手不凡：多项任务刷新SOTA，超越单语BERT

尽管该领域的早期工作已经证明了多语言掩码语言模型(multilingual masked language models)在跨语言理解方面的有效性，但是诸如XLM和multilingual BERT这样的模型在学习低资源语言的有用表示方面仍然能力有限。XLM-R在以下几个方面改进了以前的方法:

在XLM和RoBERTa中使用的跨语言方法的基础上，我们增加了新模型的语言数量和训练示例的数量，用超过2TB的已经过清理和过滤的CommonCrawl 数据以自我监督的方式训练跨语言表示。这包括为低资源语言生成新的未标记语料库，并将用于这些语言的训练数据量扩大两个数量级。

用于XLM-100的Wiki-100语料库和用于XLM-R的CC-100语料库中出现的88种语言的GiB (log-scale)数据量。CC-100将数据量增加了几个数量级，特别是对于低资源语言而言。

在fine-tuning期间，我们利用多语言模型的能力来使用多种语言的标记数据，以改进下游任务的性能。这使我们的模型能够在跨语言基准测试中获得state-of-the-art的结果，同时超过了单语言BERT模型在每种语言上的性能。

我们调整了模型的参数，以抵消以下不利因素：使用跨语言迁移来将模型扩展到更多的语言时限制了模型理解每种语言的能力。我们的参数更改包括在训练和词汇构建过程中对低资源语言进行上采样，生成更大的共享词汇表，以及将整体模型容量增加到5.5亿参数。

我们发现XLM-R在低资源语言上表现得特别出色，与以前使用15种语言进行训练的最优技术相比，XLM-R 模型在斯瓦希里语和乌尔都语上的XNLI性能分别提高了2.3%和5%。

跨语言理解结果

跨语言分类结果

我们报告了15种XNLI语言的准确性和平均准确性，证明使用translate-train-all的方法，利用了多种语言的训练集，XLM-R在XNLI上获得了82.4%的平均准确率，而且也优于以前的跨语言迁移方法。
命名实体识别结果

命名实体识别的结果。

问题回答结果

MLQA问题回答的结果。

我们报告了F1和EM(精确匹配)的zero-shot分类得分，其中模型在英语数据集上进行了微调，并在MLQA的7种语言上进行了评估。†的结果取自原始MLQA论文。

GLUE基准结果

GLUE dev结果。†的结果来自 Liu et al. (2019)。我们比较了XLMR与BERT-Large、XLNet和Roberta在英语GLUE benchmark上的性能。

多语言模型vs单语言模型

多语言模型vs单语言模型(BERT-BASE)。我们使用一个基于BERT的结构，比较了在七种语言上单语模型(BERT)和多语模型(XLM)的性能。

总结而言，XLM-R在分类、序列标记和问题回答等方面都优于mBERT和XLM等多语言模型。我们揭示了多语言MLM的局限性，特别是揭示了高资源与低资源的权衡、多语言的诅咒和关键超参数的重要性。我们还展示了多语言模型相对于单语言模型的惊人有效性，并展示了对低资源语言的强大改进。
论文地址：https://arxiv.org/pdf/1911.02116.pdf