多智能体LLM Actor-Critic框架用于社交机器人导航
近年来,机器人技术和大型语言模型(LLMs)的进步激发了人们对人机协作和具身智能的浓厚兴趣。为了在人类密集环境中更广泛地部署机器人,社交感知机器人导航(SAN)已成为一个关键的研究领域。虽然将人机交互(HRI)与路径规划相结合的深度强化学习方法在基准测试中表现出色,但它们通常难以适应新场景和环境。LLMs通过常识推理为零样本导航提供了一条有希望的途径。然而,大多数现有的LLM框架依赖于集中式决策,
近年来,机器人技术和大型语言模型(LLMs)的进步激发了人们对人机协作和具身智能的浓厚兴趣。为了在人类密集环境中更广泛地部署机器人,社交感知机器人导航(SAN)已成为一个关键的研究领域。虽然将人机交互(HRI)与路径规划相结合的深度强化学习方法在基准测试中表现出色,但它们通常难以适应新场景和环境。LLMs通过常识推理为零样本导航提供了一条有希望的途径。然而,大多数现有的LLM框架依赖于集中式决策,缺乏强大的验证机制,并且在将宏观动作转化为精确的低级控制信号时存在不一致的问题。为了解决这些挑战,我们提出了SAMALM,这是一个用于多机器人社交导航的去中心化多智能体LLM演员-评论家框架。在这个框架中,一组并行的LLM演员,每个代表不同的机器人个性或配置,直接生成控制信号。这些动作通过一个全局评论家进行两级验证过程,评估群体层面的行为和个体评论家对每个机器人上下文的评估。基于熵的得分融合机制进一步增强了自我验证和重新查询的能力,提高了鲁棒性和协调性。实验结果证实,SAMALM有效地平衡了局部自主性和全局监督,产生了符合社交规范的行为和在各种多机器人场景中的强大适应能力。更多关于这项工作的详细信息和视频可在以下网址获得: https://sites.google.com/view/SAMALM .V+cadorai,回复:AIGC++,可即时关注作者动态
当前机器人技术的进步,以特斯拉的Optimus和波士顿动力公司的Spot为例,正在推动对人机合作和具身智能的广泛研究 (李、刘、Loianno 2024;Graf等 2024;Lachner等 2021;H. 刘等 2022;Roesler、Manzey、Onnasch 2021) 。为了促进机器人和人工智能在日常人类环境中的无缝集成,对社交感知机器人导航(SAN)的研究对于更广泛的机器人部署至关重要。最近的SAN研究 (王、Yu等,未定;王、Bera、Min,未定;De Groot等 2024;Samavi等 2024;Zhou等 2024) 突出了将人机交互(HRI)和机器人间交互(RRI)整合到社交机器人路径规划器中的重要性,因为这些交互本质上是动态和异构的。
为了实现大规模的机器人应用,机器人代理需要展现出人类级别的认知能力和遵循社会规范。目前,将HRI推理与路径规划结合的深度强化学习(DRL)方法 (王、Yu等,未定;王等 2023;S. 刘等 2023;Y. F. Chen等 2017) 在迭代DRL训练期间表现出强大的基准性能。然而,这些预训练策略通常受限于其原始训练数据集和环境配置,限制了它们对新环境的适应能力。
为了解决这一局限性,可以采用由大型语言模型(LLM)驱动的执行器,在零样本情况下导航陌生空间,利用其强大的常识推理能力。例如, (Shah等 2023) 引入了多模态LLM来推断上下文语义相关性,从而在零样本导航中生成宏观动作(目的地)。此外, (Kannan、Venkatesh和Min 2024;R. Chen等 2024) 将这一概念扩展到多机器人场景,利用基于LLM的路径规划器作为任务分配器。然而,这些方法依赖于集中式的决策系统,无法充分考虑单个机器人的独特配置和偏好。此外,它们缺乏直接通过低级控制器信号控制机器人或多机器人系统的能力。


SAMALM在多机器人社交导航场景中的流程:去中心化的决策系统支持自我验证和重新查询,包括多个并行的LLM-演员,由个体LLM-评论家和全局LLM-评论家进行评估。
受多LLM协调在多智能体范式成功案例的启发 (Park 等 2023;Qian等 2024) ,本文提出了一种去中心化的多智能体LLM Actor-Critic框架,支持自我验证和重新查询,以解决多机器人SAN任务中的上述挑战,如图 Fig. 1 所示。具体来说,设计了一组基于个体LLM的演员,以反映不同机器人的独特个性或特征,使它们能够生成直接控制动作。然后通过两级验证过程评估和细化这些动作,直到达到满意的结果:一个全局评论家评估多机器人系统的群体行为,而个体评论家则评估每个机器人在上下文中的动作。本文的主要贡献可总结如下:
- 我们提出了一种新的 S ocially- A ware M ulti- A gent Actor-Critic L LM 框架,称为SAMALM,以应对多机器人社交导航任务。
- SAMALM开发了多LLM世界模型来理解环境动态,其中世界模型根据每个机器人与环境的互动构建任务场景的个人知识。此外,SAMALM采用了带有个性化提示工程的多LLM代理系统,以表示不同的机器人偏好,允许从每个LLM演员或评论家进行异步查询。
- SAMALM利用多LLM Actor-Critic框架进行自我验证和增强群体协作,结合了一个全局LLM评论家和一套本地LLM评论家,以及基于熵的得分融合机制。
- SAMALM在各种实验中展示了令人满意的社交合规行为。
2 背景
2.1 多智能体LLM框架用于机器人技术
LLM的进步极大地拓宽了人工智能的范围,通过在语言生成和语义理解方面提供前所未有的能力,彻底改变了自然语言处理。最近,LLM在机器人技术和具身智能方面的突破性进展激发了创新研究 (Shah等 2023; Ahn等 2022) ,其中LLM的常识推理能力被用于情境环境理解和执行生成,即使在零样本或少样本设置中也是如此。此外,整合多个LLM允许研究人员利用它们各自的优势并减轻个别局限性,正如在多智能体通信 (Park等 2023) 和协作软件开发 (Qian 等 2024) 应用中所展示的那样。通过在一个统一框架内协调几个专门模型,多LLM系统力求提高复杂任务的性能,改进可靠性,并促进更细致的推理。
将LLM集成到多机器人系统中,开启了在通信、任务规划、社交导航和人机交互方面的变革性机会。LLM擅长解释复杂的指令,通过多层次任务进行推理,并促进自然交流。当部署在多机器人框架中时,使用多个LLM,每个专门针对不同的机器人,如无人飞行器、仿人机器人或移动机器人,使得整个系统能够在复杂环境中实现强大的协调、自适应决策和增强的自主性。这种多LLM方法不仅利用了各个模型的独特优势,还创建了一个协同网络,能够应对动态情景中的多样化挑战。
因此,多智能体LLM范式的成功也推动了LLM驱动的多机器人系统的发展。例如, (Kannan、Venkatesh和 Min 2024) 引入了SMART-LLM框架,该框架将高层自然语言指令分解为详细的子任务,同时协调机器人之间的联盟形成和任务分配。类似地, (Obata等 2024) 利用线性规划和依赖图来捕捉LLM基础多机器人协作中任务步骤之间的潜在关联。然而,这些系统由于依赖于集中式的LLM规划者,难以充分表示单个机器人异质属性。相比之下, (Mandi、Jain和Song 2024) 和 (Wu等 2024) 设计了多机器人系统规划器,关注去中心化的多个LLM。在此基础上,SAMALM也在一个去中心化的多LLM Actor-Critic框架中明确考虑每个机器人独特的类型和属性,实现了定制化的协调和适应性任务执行,更好地捕捉多机器人SAN任务中的异质性。
2.2 大型语言模型用于社交导航
作为机器人学中的一个基本话题,社交感知导航最近得益于LLM作为稳健任务执行的有前途工具的到来。尽管最先进的基于DRL的方法,如GST (S. Liu等 2023) 、NaviSTAR (Wang等 2023) 和 NaviDIFF (Wang、Yu等, 未定) 已经设定了性能基准,但这些基于预训练DRL的策略在转移到不熟悉的环境中时往往表现不佳。为了适应环境泛化,已经开发了基于LLM的社会规划器用于零样本或少样本场景。得益于LLM出色的常识理解能力,基于LLM的社会规划器也展现了预期的导航能力。 例如, (Zu等 2024) 引入了一种混合LLM与DRL的多任务社交导航规划器,以增强策略的可转移性。此外,视觉语言模型的最新进展在支持社交导航任务方面显示出特别的前景 (Song等 2024) , (Sathyamoorthy等 2024) 。这些模型解析来自机器人摄像头的感知图像,提取潜在线索用于HRI推理和社交感知路径规划。
此外,SAN任务已扩展到多机器人场景 (Wang、Mao等, 未定) 。在这些设置中,这些规划器必须考虑不仅潜在的HRI特征,还有RRI和多机器人系统在整个导航过程中的系统级协作行为执行。 (Wang、Mao等, 未定) 利用时空变换器和多智能体近端策略优化算法解决了多机器人SAN任务中的Dec-POSMDP(去中心化部分可观测半马尔可夫决策过程)。 (Dong等 2024;Escudie和Saraydaryan 2024) 开发了基于门控循环单元和图注意力网络的神经网络架构,以估计潜在的HRI和RRI用于协调路径规划。这些模型进一步通过多智能体强化学习进行微调。最近, (Wang、Bera和Min,未定) 通过利用超图扩散机制捕获机器人、人类和兴趣点之间的高阶相关性,统一了多机器人任务分配和社会导航。这种创新方法促进了对系统内部复杂依赖关系的全面理解,从而增强了在复杂环境中的协调性能。
除此之外,基于LLM的路径规划器也被适配到这一场景。尽管现有的基于LLM的路径规划器 (R. Chen等 2024;Kannan、Venkatesh和Min 2024) 已被开发用于协作导航,但多机器人社交感知导航的具体范式在当前研究中仍 largely unexplored。因此,据我们所知,我们是第一个实施多LLM框架的人,称之为SAMALM,用于多机器人SAN任务。SAMALM解决了HRI和HHI中的动态语义推理问题,以增强协调导航行为的表现。此外,该框架通过多LLM Actor-Critic方法进行自我验证和重新查询程序,基于群体层面和代理层面的评估来完善社交机器人的执行。
3 前提条件



此外,由于部署了LLM,SAMALM通过一组评论家生成数值分数和描述性文本来处理环境反馈。此设计建立了一个自我验证机制:如果某个动作未能达到预定义的评估阈值,则会重新查询并附带相关的评论家推理文本。这种方法消除了传统MDP配置中对常规奖励函数的需求,同时仍然保留基于统一运动动力学的环境转换函数。
4 方法论
SAMALM 提出了一种去中心化的多机器人协作社交导航规划器,结合了演员执行器和评论家评分框架,均由 LLM 驱动。与之前的工作 (Kannan、Venkatesh 和 Min 2024;R. Chen 等 2024) 相比,SAMALM 不仅使每个机器人的 LLM 演员能够生成符合其独特偏好的动作,还采用了全局 LLM 评论家来验证团队级协调和局部 LLM 评论家来保持个体理性。在我们的多机器人配置中,双向通信消息链促进了信息共享,将整个团队的数据导向领导机器人以供全局评论家评估。SAMALM 专注于通过 LLM 驱动的多机器人框架表示协作行为,支持在多智能体 Actor-Critic 架构内的自我验证和重新查询功能。我们的方法如图 Fig. [fig:F2] 所示,有关多机器人世界模型的更多细节见图 Fig. 2 和多智能体Actor-Critic框架见图 Fig. [fig:F4] 。
4.1 多智能体世界模型
人类维持一种动态的内部思维范式,这是一种丰富详细且不断更新的心理表征,使他们能够模拟潜在的动作并准确预测其结果。这种复杂的认知框架不仅支撑了基本功能,如运动控制和感官感知,还包括更高层次的能力,如心理意象、逻辑推理和战略决策制定。受近期关于应用于数学问题的世界模型研究 (Opedal等 2023) 和机器人导航 (Xiang等 2023;Bar等 2024) 的启发,我们开发了一种时空图结构的多机器人世界模型,用于在LLM基础多机器人SAN任务中文本表示人机交互(HRI),如图 Fig. 2 所示。


多机器人世界模型构建的说明。


4.2 多智能体LLM演员


受到 (Wu等 2024;Jiang等 2023) 的启发,SAMALM将其提示工程框架集成到机器人特定偏好中,以适应不同机器人平台的多样化属性。这种集成集中在两个关键方面:机器人的速度偏好及其指定的社会可接受距离。例如,机器狗和仿人机器人有不同的速度配置和对个人空间的不同概念,SAMALM通过调整提示参数来解决这些问题。
4.3 多智能体LLM评论家



4.4 基于熵的融合机制





5 实验
在本节中,我们在多机器人社交导航任务中评估了所提出的 SAMALM 框架的性能。实验旨在评估不仅多机器人导航的成功率,还包括机器人表现出的社会合规程度。为此,我们将完整模型与几个基线和消融变体进行比较,在模拟环境中复制现实的人类密集场景。

异构多机器人社交导航模拟场景的说明,其中3个机器人通过个体LLM-actor导航到不同目的地,穿过包含10个人群。
5.1 实验设置

在我们的设置中,社交机器人需要合作导航到不同的目的地,同时保持适当的社交距离远离行人。我们设置了三种典型机器人类型的相关配置,包括移动机器人(首选速度 = 1.25 m/s;社交距离 = 0.45 m)、机器人狗(首选速度 = 1 m/s;社交距离 = 0.3 m)和无人机(首选速度 = 1.5 m/s;社交距离 = 0.85 m)。此外,这些三种机器人类型被随机分配到5个机器人10个行人的场景中。使用个性化策略模拟行人 (Van Den Berg等 2011) ,允许他们随机改变速度并调整目标,反映真实行为。重要的是,有关行人策略和预期目标的敏感信息对机器人不可访问。
5.2 基线和消融模型
我们评估了三类模型。首先,我们选择了几种基线模型:LLaMA-8B、LLaMA-70B、LLaMA-405B (Touvron等 2023) 、GPT-3.5、GPT-4 和 GPT-4o (Achiam等 2023) 。这些基线在集中式的LLM决策框架和Auto-CoT推理程序中使用,直接将所有机器人的聚合观测转换为执行命令,而不使用Actor-Critic结构。
对于消融研究,我们构建了两个变体,使用LLaMA-405B和GPT-4o作为LLM主干,但不包含评论模块;分别记为Ablation-L和Ablation-G。相比之下,完整的SAMALM模型包含评论结构以支持自我验证。零样本基线直接使用大型语言模型进行规划,无需额外验证,而消融研究有助于量化评论模块的贡献。在我们完整的SAMALM模型中,两级评论系统(局部和全局)与基于熵的融合机制相结合,确保初始动作提案经过迭代细化,直到满足预定义的评估阈值。
5.3 评估指标
使用两个主要指标来衡量在总共50个相同测试用例中的表现:(1) 成功率(SR):此指标量化机器人成功到达指定目标而没有发生碰撞或超时的剧集百分比;(2) 社交评分(SS):源自 (Wang, Mao等,未定) ,该评分评估机器人行为的质量相对于社交合规性。它基于多个因素计算,包括路径质量、遵守个性化安全距离以及人类不适事件的发生频率。
6 实验及结果

6.0.1 基线结果
表 1 总结了我们的实验发现,并突显了 SAMALM 框架在多机器人社交导航中的有效性。在各种配置下,SAMALM 一直优于传统的集中式基线及其消融变体。例如,在 FOV 为 90°、5 个机器人和 3 个行人的场景中,SAMALM-L 达到了 SR 为 44 和 SS 为 31 的表现——是 LLaMA-405B 基线(SR 22,SS 15)的两倍。类似地,SAMALM-G 记录了 SR 为 68 和 SS 为 72 的表现,大大超过了 GPT-4o 基线。
相比之下,较早的 LLM 如 LLaMA-8B 和 GPT-3.5 在多机器人 SAN 任务中几乎没有表现,正如零均值的 SR 和 SS 所显示的那样。他们的输出文件显示,这些模型只产生固定的动作(例如,[[0, 0], ..., [0, 0]]),其轨迹历史清楚地表明无法处理多变量输入和任务要求。尽管较大的模型如 LLaMA-70B 和 GPT-4 比较小的同类表现更好,但它们仍然经常出现数值错误和变量误算——使其偶尔的成功大多出于侥幸。值得注意的是,LLaMA-405B 和 GPT-4o 展示了有希望的推理能力,准确地进行计算并适当利用变量,分别得分为(SR = 12,SS = 8)和(SR = 20,SS = 18)。
6.0.2 消融研究

消融研究表明,移除评论模块会严重损害性能。这一发现强调了我们两级验证过程的重要性,其中局部和全局评论家通过基于熵的融合机制协同工作,以细化动作提案并确保稳健的导航和社会适宜性。此外,增强的社交评分表明,SAMALM 不仅提高了导航成功率,还可靠地维持了安全距离并促进了顺畅的人机互动。除了这些定量改进之外,定性观察显示,SAMALM 生成的轨迹更加平滑和适应性强,并且更能应对环境中的动态变化。实际上,评论家的反馈被证明是无价的——帮助演员调整其动作以解决群体和个体层面的具体问题,只要这些问题能被评论家有效识别。
总之,SAMALM 集成了去中心化决策、个性化LLM基础演员模块和动态自我验证机制,显著推进了社交感知导航的最先进水平。这种方法不仅增强了机器人在复杂环境中的导航能力,还确保其行为保持社会合规,为在人类密集环境中部署更安全和更具适应性的多机器人系统铺平了道路。
7 结论
我们首先提出了一种新的基于LLM的多机器人社交导航方法,称为SAMALM。SAMALM 在多LLM Actor-Critic框架中表示多机器人社交规范遵从性和协作导航行为。通过利用多个LLM的不同优势并采用严格的自我验证机制,我们的方法为在复杂和动态的人类环境中实现更适应、更坚韧和更社交合规的机器人应用铺平了道路。 此外,基于熵的评论家评估融合机制自适应地促进了群体层面和代理层面行为管理的结合。
Achiam, Josh, Steven Adler, Agarwal, 等. 2023. “Gpt-4 技术报告。” arXiv 预印本 arXiv:2303.08774 .
Ahn, Michael, Anthony Brohan, Yevgen Chebotar, Chelsea Finn, 等. 2022. “照我能做到的做,而不是我说的做:将语言扎根于机器人的功能中。” 在 第六届年度机器人学习会议 .
Bar, Amir, Gaoyue Zhou, Danny Tran, Trevor Darrell, 和 Yann LeCun. 2024. “导航世界模型。” arXiv 预印本 arXiv:2412.03572 .
Chen, Ruiqing, Wenbin Song, Weiqin Zu, ZiXin Dong, Ze Guo, Fanglei Sun, Zheng Tian, 和 Jun Wang. 2024. “一种由LLM驱动的智慧城市景观中多车辆调度和导航框架。” 在 2024 IEEE国际机器人与自动化会议(ICRA) , 2147–53. IEEE.
Chen, Yu Fan, Michael Everett, Miao Liu, 和 Jonathan P How. 2017. “基于深度强化学习的社会意识运动规划。” 在 2017 IEEE/RSJ国际智能机器人与系统会议(IROS) , 1343–50. IEEE.
De Groot, Oscar, Laura Ferranti, Dariu M Gavrila, 和 Javier Alonso-Mora. 2024. “拓扑驱动的动态环境中并行轨迹优化。” IEEE机器人学报 .
Dong, Lu, Zichen He, Chunwei Song, Xin Yuan, 和 Haichao Zhang. 2024. “使用基于注意力的Actor-Critic 在行人环境中进行多机器人社交感知协作规划。” 人工智能评论 57 (4): 108.
Escudie, Erwan, 和 Laëtitia Matignon Jacques Saraydaryan. 2024. “使用深度强化学习的多机器人社交导航的注意力图。” 在 国际自主代理与多智能体系统会议(AAMAS) .
Gou, Zhibin, Zhihong Shao, Yeyun Gong, yelong shen, Yujiu Yang, Nan Duan, 和 Weizhu Chen. 2024. “ CRITIC : 大型语言模型可以通过工具交互批评进行自我纠正。” 在 第十二届国际学习表示会议 .
Graf, Florenz, Jochen Lindermayr, Birgit Graf, Werner Kraus, 和 Marco F Huber. 2024. “HIPer: 多功能移动机器人的人类启发场景感知模型。” IEEE机器人学报 .
Jiang, Guangyuan, Manjie Xu, Song-Chun Zhu, Wenjuan Han, Chi Zhang, 和 Yixin Zhu. 2023. “评估和诱导预训练语言模型中的个性。” 神经信息处理系统进展 36: 10622–43.
Kannan, Shyam Sundar, Vishnunandan LN Venkatesh, 和 Byung-Cheol Min. 2024. “Smart-Llm: 使用大型语言模型进行智能多智能体机器人任务规划。” 在 2024 IEEE/RSJ国际智能机器人与系统会议(IROS) , 12140–47. IEEE.
Lachner, Johannes, Felix Allmendinger, Eddo Hobert, Neville Hogan, 和 Stefano Stramigioli. 2021. “物理人机交互中的坐标不变机器人控制的能量预算。” 国际机器人研究杂志 40 (8-9): 968–85.
Li, Guanrui, Xinyang Liu, 和 Giuseppe Loianno. 2024. “具有多个空中机器人的物理人机协作运输与操作中的人类意识。” IEEE机器人学报 .
Liu, Huihan, Soroush Nasiriany, Lance Zhang, Zhiyao Bao, 和 Yuke Zhu. 2022. “机器人学习在职:部署期间的人工闭环自主性和学习。” 国际机器人研究杂志 , 02783649241273901.
Liu, Shuijing, Peixin Chang, Zhe Huang, Neeloy Chakraborty, Kaiwen Hong, Weihang Liang, D Livingston McPherson, Junyi Geng, 和 Katherine Driggs-Campbell. 2023. “基于注意力交互图的意图感知机器人人群导航。” 在 2023 IEEE国际机器人与自动化会议(ICRA) , 12015–21. IEEE.
Mandi, Zhao, Shreeya Jain, 和 Shuran Song. 2024. “Roco: 使用大型语言模型进行辩证的多机器人协作。” 在 2024 IEEE国际机器人与自动化会议(ICRA) , 286–99. IEEE.
Obata, Kazuma, Tatsuya Aoki, Takato Horii, Tadahiro Taniguchi, 和 Takayuki Nagai. 2024. “LiP-LLM: 将线性规划和依赖图与大型语言模型集成用于多机器人任务规划。” IEEE机器人与自动化快报 .
Opedal, Andreas, Niklas Stoehr, Abulhair Saparov, 和 Mrinmaya Sachan. 2023. “数学故事问题的世界模型。” 在 计算语言学协会发现论文集: ACL 2023 , 编辑 Anna Rogers, Jordan Boyd-Graber, 和 Naoaki Okazaki, 9088–9115. Toronto, Canada: 计算语言学协会. https://doi.org/10.18653/v1/2023.findings-acl.579 .
Parasuraman, Ramviyas, Jonghoek Kim, Shaocheng Luo, 和 Byung-Cheol Min. 2018. “多机器人系统中的多点会合。” IEEE控制论汇刊 50 (1): 310–23.
Park, Joon Sung, Joseph O’Brien, Carrie Jun Cai, Meredith Ringel Morris, Percy Liang, 和 Michael S Bernstein. 2023. “生成式代理:人类行为的交互式模拟。” 在 第36届年度ACM用户界面软件和技术研讨会论文集 , 1–22.
Qian, Chen, Wei Liu, Hongzhang Liu, Nuo Chen, Yufan Dang, Jiahao Li, Cheng Yang, 等. 2024. “ C hat D ev: 软件开发的沟通代理。” 在 第62届计算语言学协会年会论文集(长文) , 编辑 Lun-Wei Ku, Andre Martins, 和 Vivek Srikumar, 15174–86. Bangkok, Thailand: 计算语言学协会. https://doi.org/10.18653/v1/2024.acl-long.810 .
Roesler, Eileen, Dietrich Manzey, 和 Linda Onnasch. 2021. “人类机器人交互中拟人化的有效性元分析。” 科学机器人 6 (58): eabj5425.
Samavi, Sepehr, James R Han, Florian Shkurti, 和 Angela P Schoellig. 2024. “SICNav: 使用模型预测控制和双层优化的安全互动人群导航。” IEEE机器人学报 .
Sathyamoorthy, Adarsh Jagan, Kasun Weerakoon, Mohamed Elnoor, Anuj Zore, Brian Ichter, Fei Xia, Jie Tan, Wenhao Yu, 和 Dinesh Manocha. 2024. “Convoi: 使用视觉语言模型进行上下文感知导航的室内和室外环境。” 在 2024 IEEE/RSJ国际智能机器人与系统会议(IROS) , 13837–44. IEEE.
Shah, Dhruv, Błażej Osiński, Sergey Levine, 等. 2023. “Lm-Nav: 使用大型预训练语言、视觉和动作模型进行机器人导航。” 在 机器人学习会议 , 492–504. PMLR.
Song, Daeun, Jing Liang, Amirreza Payandeh, Amir Hossain Raj, Xuesu Xiao, 和 Dinesh Manocha. 2024. “VLM-Social-Nav: 使用视觉语言模型评分的社会意识机器人导航。” IEEE机器人与自动化快报 .
Touvron, Hugo, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, 等. 2023. “Llama: 开放且高效的基座语言模型。” arXiv预印本 arXiv:2302.13971 .
Van Den Berg, Jur, Stephen J Guy, Ming Lin, 和 Dinesh Manocha. 2011. “互惠n体避碰。” 在 机器人研究:第14届国际研讨会ISRR , 3–19. Springer.
Wang, Weizheng, Aniket Bera, 和 Byung-Cheol Min. 未定. “Hyper-SAMARL: 基于超图的多机器人系统协调任务分配和社会感知导航。” 2025国际机器人与自动化会议(ICRA) .
Wang, Weizheng, Le Mao, Ruiqi Wang, 和 Byung-Cheol Min. 未定. “使用多智能体强化学习的多机器人协作社会感知导航。” 2024国际机器人与自动化会议(ICRA) .
Wang, Weizheng, Ruiqi Wang, Le Mao, 和 Byung-Cheol Min. 2023. “NaviSTAR: 使用混合时空图变换器和偏好学习的社会感知机器人导航。” 在 2023 IEEE/RSJ国际智能机器人与系统会议(IROS) , 11348–55. https://doi.org/10.1109/IROS55552.2023.10341395 .
Wang, Weizheng, Chao Yu, Yu Wang, 和 Byung-Cheol Min. 未定. “人机合作分布耦合用于Hamilton约束的社会导航。” 2025国际机器人与自动化会议(ICRA) .
Wu, Qingyun, Gagan Bansal, Jieyu Zhang, Yiran Wu, Beibin Li, Erkang Zhu, Li Jiang, 等. 2024. “AutoGen: 通过多智能体对话实现下一代LLM应用。” 在 首届语言建模会议 .
Xiang, Jiannan, Tianhua Tao, Yi Gu, Tianmin Shu, Zirui Wang, Zichao Yang, 和 Zhiting Hu. 2023. “语言模型遇见世界模型:具身经验增强语言模型。” 神经信息处理系统进展 36: 75392–412.
Yao, Shunyu, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, 和 Yuan Cao. 2023. “React: 协同推理与行动的语言模型。” 在 国际学习表示会议(ICLR) .
Zhang, Zhuosheng, Aston Zhang, Mu Li, 和 Alex Smola. 2022. “大型语言模型中的自动链式思维提示。” arXiv预印本 arXiv:2210.03493 .
Zhou, Xinyu, Songhao Piao, Wenzheng Chi, Liguo Chen, 和 Wei Li. 2024. “Her-Drl: 分散多机器人人群导航的异构关系深度强化学习。” arXiv预印本 arXiv:2403.10083 .
Zu, Weiqin, Wenbin Song, Ruiqing Chen, Ze Guo, Fanglei Sun, Zheng Tian, Wei Pan, 和 Jun Wang. 2024. “语言与草图:一种由LLM驱动的交互式多模态多任务机器人导航框架。” 在 2024 IEEE国际机器人与自动化会议(ICRA) , 1019–25. IEEE.
- SMART 实验室,普渡大学计算机与信息技术系,美国西拉法叶市。 [wang5716,obii,minb]@http://purdue.edu . ↩︎
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐

所有评论(0)