MMSAI 语音识别大模型
Massively Multilingual Speech (MMS) 是由 Meta 开源的一个 AI 语音识别模型。支持 1107 种语言的语音转文本和文本转语音,以及 4000 多种语言的语言识别。
MMS 项目将支持的语言数量增加了 10-40 倍,具体取决于任务。主要成分是一个新的数据集,该数据集基于对公开宗教文本的阅读,并有效地利用了自我监督学习。
项目团队构建了涵盖 1406 种语言的预训练 wav2vec 2.0 模型、1107 种语言的单一多语言自动语音识别模型、相同数量语言的语音合成模型,以及 4017 种语言的语言识别模型。实验表明,该多语言语音识别模型在 FLEURS 基准测试的 54 种语言上将 Whisper 的单词错误率降低了一半以上,同时在一小部分标记数据上进行了训练。
关于 MMS 所涵盖的语言的概述,可查看此处。
预训练模型
Model | Link |
---|---|
MMS-300M | download |
MMS-1B | download |
可以在此处找到微调预训练模型的示例命令。
微调模型
ASR
Model | Languages | Dataset | Model | Supported languages |
---|---|---|---|---|
MMS-1B:FL102 | 102 | FLEURS | download | download |
MMS-1B:L1107 | 1107 | MMS-lab | download | download |
MMS-1B-all | 1162 | MMS-lab + FLEURS + CV + VP + MLS |
download | download |
TTS
- 下载 1107 种语言的 iso codes 列表。
- 找到目标语言的 iso code 并下载 checkpoint。每个文件夹包含 3 个文件:
G_100000.pth、
config.json、
vocab.txt
。
# Examples:
wget https://dl.fbaipublicfiles.com/mms/tts/eng.tar.gz # English (eng)
wget https://dl.fbaipublicfiles.com/mms/tts/azj-script_latin.tar.gz # North Azerbaijani (azj-script_latin)
LID
# Languages | Dataset | Model | Dictionary | Supported languages |
---|---|---|---|---|
126 | FLEURS + VL + MMS-lab-U + MMS-unlab | download | download | download |
256 | FLEURS + VL + MMS-lab-U + MMS-unlab | download | download | download |
512 | FLEURS + VL + MMS-lab-U + MMS-unlab | download | download | download |
1024 | FLEURS + VL + MMS-lab-U + MMS-unlab | download | download | download |
2048 | FLEURS + VL + MMS-lab-U + MMS-unlab | download | download | download |
4017 | FLEURS + VL + MMS-lab-U + MMS-unlab | download | download | download |
评论