作者：Will Douglas Heaven

翻译：顾伟嵩

校对：欧阳锦


本文约1200字，建议阅读5分钟

如果你能通过视觉认出一只狗，那么当你用语言描述它时，你可能就能认出它。对于今天的人工智能来说，情况并非如此。深度神经网络已经非常擅长识别照片中的物体和用自然语言进行对话，但不是同时进行：有的AI模型擅长其中一种，但不是两者都擅长。

部分问题在于，这些模型使用不同的技术学习不同的技能。这是开发可以执行多任务并适应环境的多功能AI机器的一个主要障碍。这也意味着，一项技能的深度学习进展通常不会转移到其他技能。

Meta AI（之前是Facebook AI Research）的一个团队希望改变这一点。研究人员开发了一种算法，可以通过训练神经网络来识别图像、文本或语音。这种名为Data2vec的算法不仅统一了学习过程，而且表现地至少与这三种技能的现有技术一样好。Meta AI的研究员Michael Auli说：“我们希望它能改变人们对这类工作的看法。”

这项研究建立在一种被称为自我监督学习的方法之上，在这种方法中，神经网络学习独自在数据集中发现模式，而不受标记示例的指导。这就是像GPT-3这样的大型语言模型如何从互联网上收集的大量未标记文本中学习，并推动了深度学习的许多最新进展。

Auli和他在Meta AI的同事一直致力于语音识别的自我监督学习。但是当他们观察其他研究人员在图像和文本的自我监督学习中所做的事情时，他们意识到他们都在使用不同的技术来追求相同的目标。

Data2vec使用两个神经网络，一个是学生，一个是老师。首先，老师网络以通常的方式接受图像、文本或语音方面的训练，学习这些数据的内部表示，使其能够预测在展示新示例时看到的内容。当看到一张狗的照片时，会认出它是一只狗。

转变之处在于，学生网络随后被训练来预测教师的内部表现。换句话说，它接受的训练不是在看狗的照片时猜测自己正在看狗的照片，而是在给老师看照片时猜测老师看到了什么。

因为学生不会试图猜测实际的图像或句子，而是猜测教师对该图像或句子的表示，所以算法不需要根据特定类型的输入进行调整。

Data2vec是AI发展到可以学习以多种方式理解世界的模型的大趋势的一部分。西雅图Allen AI研究所从事视觉和语言研究的Ani Kembhavi说：“这是一个聪明的想法，在学习的通用系统方面，这是一个有希望的进步。”

一个重要的告诫是，虽然相同的学习算法可以用于不同的技能，但一次只能学习一种技能。即使学会识别图像，也必须从头开始学习识别语音。同时赋予AI多种技能很难，但这是Meta AI团队下一步要考虑的问题。

研究人员惊讶地发现，他们的方法在识别图像和语音方面的表现实际上比现有技术更好，在文本理解方面的表现也和领先的语言模型一样好。

Mark Zuckerberg已经在构思潜在的元宇宙应用。他今天在Facebook上发帖称：“这一切最终都会被AI助手植入AR眼镜中。它可以帮助你做饭，注意你是否遗漏了一种配料，提示你关小火，或者做更复杂的事情。”

对Auli来说，他的中心思想是研究人员应该走出他们的小圈子。“嘿，你不需要专注于一件事，”他说，“如果你有一个好主意，它实际上可能对所有方面都有帮助。”

原文标题：

Meta’s new learning algorithm can teach AI to multi-task

原文链接：

https://www.technologyreview.com/2022/01/20/1043885/meta-ai-facebook-learning-algorithm-nlp-vision-speech-agi/

编辑：于腾凯

校对：林亦霖

数据分析案例：判断数据指标波动异常有哪些方法？

用Excel进行数据查询，这些招数会几种？

阿里数据专家：如何有规范+规划的进行数据埋点？

译者简介

顾伟嵩，中国科学院大学网络空间安全专业研究生。对数据科学领域充满好奇，渴望探索未知世界。课余时间喜欢踢足球、游泳。愿意挑战新事物，结交新朋友，一起进步，一起成长。

Meta的新学习算法可以教AI进行多任务处理

作者：Will Douglas Heaven

翻译：顾伟嵩

校对：欧阳锦