李飞飞的华人斯坦福博士提出SLIDE模型,联手英伟达探索通用人工智能
新智元报道
新智元报道
来源:Twitter
编辑:LRS
【新智元导读】以往的强化学习模型都是指定任务来学习策略,近日,李飞飞的一位本科毕业于清华的博士生Kuan Fang,联手英伟达提出一个学习模型SLIDE,通过生成多种任务来学习泛化性超强的技能,或许能带来通用人工智能的新思考。
机器学习可以显著提高智能体的学习效率和泛化能力。
然而在现实世界的应用中,机器人的设计往往比其他问题更加棘手,因为机器人需要大量的训练和专业知识才能完成设计。
针对这个问题,李飞飞团队联合英伟达提出了一个全新的技能训练方法Skill Learning In Diversified Environments(SLIDE),通过自动生成的一系列不同的任务来发现一般化的技能。
与之前无监督的技能发现工作不同的是,他们是在相同的环境下训练产生不同的技能,而这篇论文中的方法将每个技能与一个可训练的任务生成器产生的独特任务结合起来。
为了鼓励一般化技能的出现,对于每个被配对到的任务都进行技能训练,并最大化生成任务的多样性。在生成的任务中定义一个任务判别器来估计多样性目标的证据下界。
机器人的技能是通过自动生成任务来学习的。每一项技能都与一项由可训练的独特任务相匹配任务生成器。这些技能被训练成专门从事被匹配到的任务。通过生成的多样化任务来发现不同的技能。
方法中发现技能的关键是设计训练技能条件任务的目标函数生成器g来创建不同的任务。为了让更通用的技能可以被学习出来,研究人员认为技能间(inter-skill)的多样性和技能内部(intra-skill)的多样性都需要被考虑,在训练任务生成器g时应当适当平衡。
技能间的多样性鼓励每项任务为配对到的技能提出更独特的挑战。而内部技能多样性衡量每个任务所能提供的环境变化。
对于机器人操作任务,开发人员肯定希望机器人擅长不同类型的互动(如推、抓、放等)具有特定类型的对象。同时,也希望每项技能都有足够能力去处理场景变化和任务初始的通用性。
最后,还需要考虑了任务的可行性以防止在无法解决的任务中学习技能。
上图就是通过SLIDE模型发现的示例任务和技能,通过展示两个相关的采样轨迹来展示技能间和技能内的多样性。每一个灰色区块中都有相同的技能指数。每列显示生成的任务的初始化和技能的执行。不同颜色表示不同物品类别的目的地,包括罐头(红色)、盒子(绿色)和餐具(蓝色)
文中的实验设计的主要目的是回答以下问题:1)SLIDE可以通过生成的任务来学习到不同的技能吗?2) 通过SLIDE学到的技能,能够被利用和泛化到其他没见过的任务上吗?3)SLIDE中的设计选项如何影响学习技能和任务绩效?
为了学习机器人技能并评估其对未知目标任务的泛化能力,设计了两个桌面操作区域。每个域定义一个包含共享相同状态和动作空间但不同的环境设计和奖励功能。这两个任务空间由多个离散和离散变量参数化用于定义初始化、动力学和奖励功能。
首先训练技能发现的方法,通过从参数化任务按程序生成任务没有目标任务概念的空间。然后训练利用分层策略解决每个没见过的目标任务从同一领域学到的技能。
研究结果表明,相对于现有的强化学习和技能学习方法,论文中提出的方法学会的技能可以有效地提高机器人在各种没有目标的任务中的表现。
文章的主要贡献在于提出了在多样化的环境中学习技能的模型SLIDE,它通过自动生成一组不同的任务。通过最大化生成任务的多样性,SLIDE方法能够发现各种任务以启用技能策略来激发机器人学习到各种各样的行为。
通过训练分层结构,利用所学技能的强化学习算法作为低层策略,在两个桌面操作区域,能够有效地提高了隐性目标任务的学习能力与学习效率。
在今后的工作中有几个方面可以改进。首先,提出的方法是专为学习一定数量的技能而设计的,一个有趣的研究方向是对任务进行开放式技能发现和灵活的技能数量。
其次,文中暗示了在目标任务中对目标任务是有用的,并假设参数化奖励函数在任务中预定义,但未来的工作可以生成相应任务任务基于内在激励的奖励函数。
最后,希望这项工作能鼓励更多的人努力利用面向机器人学习和类似应用的程序化内容生成,可以为更广泛的应用范围提出方法,比如视觉导航和仿人机器人。
文章的第一作者Kuan Fang是斯坦福大学Vision and Learning实验室的一名博士生,由Silvio Savarese教授和李飞飞教授共同指导,主要研究方向是计算机视觉、机器人和机器学习。
他的本科在清华大学,曾在Google Brain, Google X, 微软亚洲研究院实习。
本文的第二作者Yuke Zhu是德克萨斯州大学奥斯汀分校计算机科学系的助理教授,也是机器人感知和学习实验室的主任,同时还是 NVIDIA 研究中心的高级研究科学家。
主要研究方向是为机器人和具身代理人构建智能算法,这些机器人和具身代理人可以推理并与现实世界互动,这项研究是机器人学、计算机视觉和机器学习的交叉。重点研究了感知和控制的方法和机制,以实现通用机器人的自主性。
这篇论文的导师是李飞飞,2020年当选为美国国家工程院院士,美国国家医学院院士,2021年当选为美国艺术与科学院院士。她的工作包括括受认知启发的AI,机器学习,深度学习,计算机视觉和AI+医疗保健,尤其是用于医疗保健交付的环境智能系统。
她还从事认知和计算神经科学方面的工作。她发明了ImageNet和ImageNet Challenge,其中ImageNet Challenge是一项重要的大规模数据集和基准测试工作
参考资料:https://arxiv.org/abs/2mia106.13935