填补领域空白！利用大型语言模型实现机器人任务规划中的人类意识-轻识

大数据文摘授权转载自机器人大讲堂

近年来，随着机器人在工业、交通和家庭环境中扮演越来越重要的角色，如何在规划机器人任务和运动时考虑到周围人类的动作，已经成为一个关键课题。得益于自然语言处理（NLP）研究的重大进展，大型语言模型（LLMs）的出现极大地提升了机器人任务和运动规划（TAMP）的性能。然而，之前的方法往往忽视了动态环境中的人类因素。不久前刊登在arxiv上的一篇名为《Towards Human Awareness in Robot Task Planning with Large Language Models》的研究，提出了一种新颖的方法，通过将人类感知融入基于LLM的机器人任务规划中，以填补这一研究空白。

大型语言模型在机器人任务规划中的应用

LLM的崛起

在过去几年中，自然语言处理领域取得了飞跃性进展，特别是大型语言模型（LLMs）的发展。这些模型展示了生成类人文本、编程代码和服务组合的高超能力。许多研究者已经开始利用这些模型来解决机器人任务和运动规划（TAMP）问题。他们通过从LLMs中提取常识知识并将其用作经典自动任务规划算法的约束条件，以提高生成计划的正确性和可执行性。

LLM在机器人任务规划中的具体应用

在机器人操作大规模复杂环境中，理解底层语义信息是成功导航的重要因素。最近的研究表明，通过高层次表示（如场景图）编码环境拓扑和语义关系，可以显著提高导航效率。特别是在高层次任务规划中，利用场景图可以通过减少搜索空间和缩短规划时间，显著提高规划性能。

人类感知在机器人任务规划中的重要性

现有研究的不足

令人惊讶的是，将人类感知纳入机器人任务规划的研究最近并没有取得实质性进展。早期的方法主要将人类感知任务规划问题视为调度问题，其中人类有自己的日程安排，机器人应通过避免与人类日程冲突来规划其任务。然而，这些方法大多依赖于预先提供的人类日程安排。尽管LLMs的巨大进步及其丰富的常识知识，许多之前基于LLM的机器人任务规划方法并未考虑到人类的存在。利用LLMs进行人类感知任务规划的研究仍然较少见。

新方法的提出

观察到这一研究空白，本文提出了一种新颖的方法，将人类感知融入基于LLM的机器人任务规划中。该方法提出了以下关键贡献：

介绍了场景图和LLMs的新组合。为了实现人类感知，研究人员将人类与其他静态对象的语义关系编码到场景图中，并使用LLMs预测未来的人类活动。

将人类作为额外的规划代理，并将预测的活动作为他们的目标，该方法将人类感知的单机器人任务规划问题转化为多代理任务规划问题。利用LLMs进一步将问题规范化为正式的规划语言，该方法能够有效地解决机器人和人类的多代理问题，同时确保计划的可执行性。

促进了将人类感知融入基于LLM的机器人任务规划的发展，并为动态环境中的主动机器人决策铺平了道路。

相关工作

3D场景图

3D场景图是用于建模大规模物理环境的图结构，它们在空间和语义领域提供了有效的层次抽象。3D场景图最早作为一种结构引入，用于连接建筑物、房间、物体和摄像机的多层次关系。随后，Rosino和Hughes等人研究了在动态环境中从传感器数据构建3D场景图。Wald等人引入了表示对象关系的语义3D场景图，将场景中表示对象实例的节点之间的关系作为边。鉴于其成功，3D场景图开始集成到机器人系统中，用于导航或任务和运动规划等应用。

基于LLM的机器人任务和运动规划

近年来，将LLMs融入机器人TAMP方法的开发取得了显著进展。一种著名的方法是利用LLMs捕获并运用其内嵌的丰富语义和常识知识，以熟练地解释用自然语言（NL）描述的环境。然而，许多研究者已经证明，LLMs直接生成的高层次任务计划通常不正确且不可执行，因为可操作知识没有具体在环境中扎根。因此，提出了各种方法，将LLMs的常识知识与经典的规划算法相结合，以提高规划的实际可行性。

例如，有研究通过将LLMs生成的高层次计划与低层次运动规划模块相结合，使得生成的计划不仅在语义上连贯，而且在物理上可执行。还有研究通过在训练阶段引入环境模拟，来增强LLMs对实际环境中动态变化的理解。这些方法显著提升了机器人在复杂环境中的任务执行能力，但仍然缺乏对人类行为的深刻理解。

新方法的创新点

场景图与LLMs的结合

为了实现更加智能和人性化的机器人任务规划，该研究提出了一种将场景图与LLMs结合的新方法。场景图是一种图结构，可以有效地表示环境中的空间和语义关系。通过将人类与其他静态对象的语义关系编码到场景图中，研究人员可以更好地理解环境的动态变化。

此外，利用LLMs强大的预测能力，研究人员可以预测未来的人类活动，并将这些活动作为输入，进一步优化机器人的任务规划。例如，在家庭环境中，机器人可以预测到住户每天早晨会在厨房制作早餐，从而避免在此时间段内打扫厨房，以减少对住户的干扰。

多代理任务规划

在本文的方法中，机器人不仅仅被视为一个独立的执行单元，而是将人类也视为规划代理。通过将预测的活动作为人类的目标，研究人员的方法将人类感知的单机器人任务规划问题转化为多代理任务规划问题。这种方法可以更全面地考虑人类和机器人的互动，从而生成更为合理和高效的任务计划。

例如，在一个工厂环境中，机器人可以预见到工人将要操作某台机器，从而避开该区域，并优先处理其他任务。这不仅提高了机器人的工作效率，也减少了对工人的干扰，提升了整体生产效率。

规范化规划语言

为了确保生成的任务计划在实际环境中可行，研究人员的方法利用LLMs将规划问题规范化为正式的规划语言。这种方法不仅可以提高规划的准确性，还能通过形式化验证确保规划的可执行性。

例如，在一个复杂的物流中心，机器人需要根据实时变化的订单和库存信息进行动态调整。通过将任务规划问题转化为正式的规划语言，机器人可以更精确地计算出最优路径和任务顺序，从而提高物流效率。

总结与展望

本文的研究通过场景图和LLMs的结合，将人类与环境的动态关系编码到任务规划中，同时将单机器人任务规划问题转化为多代理任务规划问题，并通过规范化规划语言确保计划的可执行性。这不仅提高了机器人任务规划的准确性和效率，也为未来动态环境中的机器人决策铺平了道路。

未来，研究人员希望通过进一步优化和扩展这一方法，使得机器人在更多复杂和动态的环境中能够更好地适应和服务人类，从而推动机器人技术的发展，提升人类生活质量。

黑色小圆动图分割线

租售GPU算力

租：4090/A800/H800/H100

售：现货H100/H800

特别适合企业级应用

扫码了解详情☝

点「在看」的人都变好看了哦！

​填补领域空白！利用大型语言模型实现机器人任务规划中的人类意识

填补领域空白！利用大型语言模型实现机器人任务规划中的人类意识