新智元报道

来源：Facebook AI

编辑：小咸鱼好困

【新智元导读】今年11月，Facebook将开源让AI拥有以第一人称视角与世界进行交互的能力的Ego4D（Egocentric 4D Perception）计划。其中包含超过3025小时的第一人称视频，包括来自73个城市的700多名参与者的日常生活。

你有想象过，有一天，戴上头盔，眼前立刻悬浮出科幻场景般的炫丽世界吗？

在钢铁侠电影中，每当托尼斯塔克穿上机械盔甲，头盔合上的那一刻，超级人工智能管家贾维斯就会在他眼前出现，帮助他分析眼前的情况。

钢铁侠头盔里的贾维斯，其实是以第一人称视角来理解世界的，所以会带来电影里那样的沉浸式体验。

在未来，增强现实(AR)眼镜和虚拟现实(VR)耳机等设备在日常生活中，将会变得像智能手机一样普遍。

想象一下，你的增强现实设备准确地显示了如何在鼓课上握住木棒，指导你完成一个食谱，帮助你找到丢失的钥匙，或者像全息图一样浮现出你的记忆。

为了实现这些新技术，人工智能需要像我们一样，从第一人称的角度理解世界并与它互动，这在研究界，通常被称为以第一人称为中心的视觉感知。

然而，今天的计算机视觉（CV）系统从数以百万计的照片和视频中学习，尽管发展飞速，有了喜人的研究进展，可这些照片和视频都是以第三人称视角拍摄的，相机的视角只是一个行动的旁观者视角。

嗯。。。钢铁侠系列的电影都结束了，现实生活中什么时候才能见到像贾维斯那样，以第一视角理解世界的AI，出现在增强现实设备里呢？

别着急，有眉目了！

「Ego4D」计划

2021年，Facebook AI正在宣布开展「Ego4D」（Egocentric 4D Perception）计划，这是一个雄心勃勃的长期项目，为的就是解决以第一人称视觉为中心的感知领域的研究挑战。

「Ego4D」（Egocentric 4D Perception）是一个大规模的以第一人称视觉为中心的数据集，具有前所未有的多样性。它由来自全球9个不同国家74个地点的855名独特参与者收集的3025小时视频组成。

该项目汇集了88名研究人员，将这一数据集的规模大幅增加了一个数量级，比任何其他项目都大20多倍，并且即将在11月底开放下载。

让AI也体验「第一人称视角」

就拿过山车来说吧，你在上面体验着肾上腺素飙升的快感。而下面的人则是看得一脸懵比。

人工智能，就更懵了……如果把CV系统绑在过山车上，它估计完全不知道自己该看些什么。即便在地面上从旁观者的角度看了几十万张过山车的图片或视频，也是如此。

AI在第一人称视角把自行车上的部件识别为「红绿灯」

Facebook首席研究科学家Kristen Grauman表示：「为了使人工智能系统能够像我们一样与世界互动，人工智能领域需要发展到一种全新的第一人称感知范式。这意味着教人工智能在实时运动、互动和多感官观察的背景下，通过人类的眼睛理解日常生活活动。」

于是，Facebook AI在「Ego4D」中开放了五个以第一人称视觉体验为中心的基准挑战。

哎，你看到我的手机了吗？我又找不着我的手机了！

很熟悉，对吧？

Ego4D希望解决的第一个问题是情景记忆（Episodic memory）。

以第一人称视觉为中心的视频记录了相机佩戴者的日常生活，如果用这些视频去训练AI，AI就能学会通过检索过去以第一人称视觉为中心的视频中的关键时刻来扩展你的个人记忆。

你可能会问人工智能各种自由形式的问题，比如：视觉查询「我把我孩子最喜欢的泰迪熊放在哪里了？」、文本查询「我加了多少杯糖」，以及事件查询「我什么时候和狗玩的」。

为此，模型必须能响应你的提问，并在过去的视频帧中定位，进一步提供记忆中的三维空间方向，时间，事件细节等信息。

坏了，接下来我要做什么来着？

Ego4D要解决的第二个问题便是预测（Forecasting）：下一步我要做什么？

人工智能可以理解佩戴者的行为会如何影响这个人未来的状态，比如这个人可能会移动到哪里，他们可能会触摸什么物体，或者他们接下来可能会从事什么活动。

预测行动不仅需要认识到已经发生的事情，还需要展望未来，预测下一步行动。这样AI系统就可以在当下提供有用的指导。

比方说，就在你准备端着锅里的汤就走的时候，你的人工智能助手会赶紧通知你，「等等，你没加盐咋吃啊？」

我在做什么，该怎么做？

手-物之间的互动（Hand and object manipulation）也是难点之一，因为AI需要理解我在做什么，该怎么做？

学习手如何与物体互动对于AI指导我们的日常生活至关重要。AI必须检测第一人称的人-物交互，识别抓取，并检测物体状态变化。这时，AI机器人可以总结视频中观察到的人类经验，获得自己的经验。

因此，当你在烹饪一份食谱时，人工智能助手可以指导你需要哪些配料，需要先做什么，了解你已经做了什么，指导你度过每一个「大脑宕机」的时刻。

刚刚他说了什么，他什么时候说的？

人类可以用声音来理解世界，未来的人工智能也要学会这种视听记录（Audio-visual diarization）。

如果你正在上一堂重要的课，但因为爸妈给你发短信而分了心，你可以问AI：「教授把我们的试卷收上去之后，说明天要讲什么」？

我正在与谁互动，如何互动？

社会互动（Social interaction）是Ego4D所盼望的最后一个方向。

除了识别视觉和声音提示，理解社交互动是智能人工智能助手的核心。一个社交智能人工智能会理解谁在和谁说话，谁在关注谁。

所以，下次你参加晚宴时，即使再嘈杂，AI助手可以帮助你专注于桌子对面和你说话的人在说什么。

以上这些基准挑战都是以第一人称视觉为中心的人工智能的基本构建模块，这将让AI不仅可以在现实世界中理解和互动，还可以在元宇宙中进行理解和互动，构成更有用的人工智能助手和其他未来创新的基础。

一个又大又干净的数据集

基准和数据集在历史上被证明是人工智能行业创新的关键催化剂。毕竟，今天的CV系统可以识别图像中的几乎任何物体，是建立在数据集和基准之上的，例如MNIST、COCO和ImageNet，它们为研究人员提供了研究真实世界图像的测试平台。

但是以自我为中心的感知是一个全新的领域。我们不可能用昨天的工具来构建明天的创新。Ego4D的空前规模和多样性对于迎来下一代智能人工智能系统至关重要。

Ego4D数据集的地理覆盖面、场景、参与者和捕获模式都各不相同。数据也是使用多种不同的现成头戴式摄像机捕获的，如GoPro、Vuzix Blade等等。

除了视频之外，Ego4D的部分功能还提供其他数据形式：3D扫描立体图、音频、多个同步可穿戴摄像头等等。

Ego4D数据集的贡献者也来自很多所大学，包括大家熟知的卡内基梅隆大学，佐治亚理工学院，东京大学和新加坡国立大学等。

参与者录制需要录制大约8分钟的日常场景片段，如买菜、做饭、玩游戏时的交谈以及与家人和朋友进行的集体活动。

Ego4D捕捉到了佩戴摄像机的人在特定环境中选择注视的地方，他们用手（和他们面前的物体）做了什么，以及他们如何从第一人称视角与其他人互动。它们当中的一些镜头还可以与3D扫描、惯性测量单元的运动数据和眼球追踪相搭配。

下一步是什么？

Facebook AI试图通过Ego4D项目打造一条全新的道路，以构建更智能、更具交互性和灵活性的计算机视觉系统。

随着人工智能对人们正常生活方式有了更深入的理解，它可以开始以前所未有的方式对交互体验进行情境化和个性化。

Grauman表示：「Ego4D使人工智能有可能获得根植于物理和社会世界的知识，这些知识是通过生活在其中的人的第一人称视角收集的。」

「由此开始，人工智能不仅会更好地了解周围的世界，有一天它可能还会实现个性化——它能知道你最喜欢的咖啡杯，或者为你的下一次家庭旅行指引路线。」

有了Ego4D的基准支持，配合上在全新数据集中的训练，AI助手有可能以非常独特和有意义的方式提供很多的价值，比如，帮助回忆起最近与同事交谈中的关键信息，或者指导制作新的晚餐食谱。

Facebook表示，从这一系列工作中获得的价值将推动我们走向未来的「现实」。

对此，玛丽皇后大学的人工智能研究员Mike Cook认为，「从积极的角度来说，至少就目前而言，这是一个非常棒的大型数据集。」

「不过，这实际上并没有解决人工智能中的一个紧迫挑战或问题......除非你是一家想要销售可穿戴相机的科技公司。它确实告诉你更多关于Facebook的未来计划，但是......他们向它注入资金并不意味着它一定会变得重要。」

参考资料：

https://ai.facebook.com/blog/teaching-ai-to-perceive-the-world-through-your-eyes/

https://ego4d-data.org/#challenges

https://scontent-man2-1.xx.fbcdn.net/v/t39.8562-6/10000000_847983305881306_7509059106343724260_n.pdf?_nc_cat=104&ccb=1-5&_nc_sid=ae5e01&_nc_ohc=oG22Dq6JhsIAX_7Cb51&_nc_ht=scontent-man2-1.xx&oh=b70a03b9a5d8a58c26586729c08d3a54&oe=616D0510

https://venturebeat.com/2021/10/14/facebook-introduces-dataset-and-benchmarks-to-make-ai-more-egocentric/

AI即将拥有自我意识？Facebook推「Ego4D 」开启元宇宙大门