MMSAI 语音识别大模型-轻识

Massively Multilingual Speech (MMS) 是由 Meta 开源的一个 AI 语音识别模型。支持 1107 种语言的语音转文本和文本转语音，以及 4000 多种语言的语言识别。

MMS 项目将支持的语言数量增加了 10-40 倍，具体取决于任务。主要成分是一个新的数据集，该数据集基于对公开宗教文本的阅读，并有效地利用了自我监督学习。

项目团队构建了涵盖 1406 种语言的预训练 wav2vec 2.0 模型、1107 种语言的单一多语言自动语音识别模型、相同数量语言的语音合成模型，以及 4017 种语言的语言识别模型。实验表明，该多语言语音识别模型在 FLEURS 基准测试的 54 种语言上将 Whisper 的单词错误率降低了一半以上，同时在一小部分标记数据上进行了训练。

关于 MMS 所涵盖的语言的概述，可查看此处。

预训练模型

Model	Link
MMS-300M	download
MMS-1B	download

可以在此处找到微调预训练模型的示例命令。

微调模型

ASR

Model	Languages	Dataset	Model	Supported languages
MMS-1B:FL102	102	FLEURS	download	download
MMS-1B:L1107	1107	MMS-lab	download	download
MMS-1B-all	1162	MMS-lab + FLEURS + CV + VP + MLS	download	download

TTS

下载 1107 种语言的 iso codes 列表。
找到目标语言的 iso code 并下载 checkpoint。每个文件夹包含 3 个文件：G_100000.pth、config.json、vocab.txt。

# Examples:
wget https://dl.fbaipublicfiles.com/mms/tts/eng.tar.gz # English (eng)
wget https://dl.fbaipublicfiles.com/mms/tts/azj-script_latin.tar.gz # North Azerbaijani (azj-script_latin)

LID

# Languages	Dataset	Model	Dictionary	Supported languages
126	FLEURS + VL + MMS-lab-U + MMS-unlab	download	download	download
256	FLEURS + VL + MMS-lab-U + MMS-unlab	download	download	download
512	FLEURS + VL + MMS-lab-U + MMS-unlab	download	download	download
1024	FLEURS + VL + MMS-lab-U + MMS-unlab	download	download	download
2048	FLEURS + VL + MMS-lab-U + MMS-unlab	download	download	download
4017	FLEURS + VL + MMS-lab-U + MMS-unlab	download	download	download