Facebook 正在研究新型 AI 系统,以自我视角与世界进行交互
Python高校
共 3324字,需浏览 7分钟
·
2021-10-28 23:33
点击“凹凸域”,马上关注
更多内容、请置顶或星标
编译:禾木木
想象一下,你的 AR 设备准确地显示了如何在架子鼓课上握住鼓棒,知道你完成一个食谱;帮助你找到丢失的钥匙,或是像全息图一样在你的记忆中重现。为了构建这些新技术,人工智能需要像我们一样,可以从第一人称的角度理解世界并进行互动。在研究界,通常称为以自我为中心的感知。然而,今天的计算机视觉系统通常是以第三人称视角来拍摄的数百万张照片或是在视频中学习,而相机只是动作的旁观者。
Facebook AI 推出 Ego4D
- Ego4D 的第一个基准挑战是情景记忆(Episodic memory)。
- 下一步就是进行预测:接下来可能会做什么?
- 第三个挑战基准就是手-物之间的互动(Hand and object manipulation)也是难点和关键的一步,因为AI需要理解在做什么,如何做?
- 这个就是第四个挑战基准 - 视听分类
- 社会互动(Social interaction)是 Ego4D 的最后一个方向。
基准和数据集在历史上被证明是人工智能行业创新的关键催化剂。毕竟,今天的 CV 系统几乎可以识别图像中的任何对象,它是建立在数据集和基准(例如 MNIST、COCO 和 ImageNet)之上的,它们为研究人员提供了一个用于研究真实世界图像的试验台。但是以自我为中心的感知是一个全新的领域。我们不能使用昨天的工具来构建明天的创新。Ego4D 前所未有的规模和多样性对于引入下一代智能 AI 系统至关重要。为了构建这个数据集,每所合作大学的团队向研究者分发了头戴式摄像头和其他可穿戴传感器,以便他们能够捕捉第一人称、无脚本视频。日常生活。参与者从日常场景中录制大约8分钟的视频片段,例如杂货店购物、烹饪和边玩游戏边交谈以及与家人和朋友一起参与其他集体活动。Ego4D 捕捉了佩戴摄像机的人在特定环境中选择注视的内容,用手或是面前的物体做了什么,以及他们如何以第一人称视觉与其他人进行互动。与现有数据集相比,Ego4D 数据集提供了更大的场景、人物和活动的多样性,这增加了针对不同背景、种族、职业和年龄的人训练的模型的适用性。
Ego4D 及以后的下一步是什么?
- https://venturebeat.com/2021/10/14/facebook-introduces-dataset-and-benchmarks-to-make-ai-more-egocentric/
- https://ai.facebook.com/blog/teaching-ai-to-perceive-the-world-through-your-eyes/
— END —
想要了解更多AI资讯
点这里👇关注我,记得标星呀~
请点击上方卡片,专注计算机人工智能方向的研究
评论