来自吉林大学和香港科技大学的研究团队在IEEE Transactions on Robotics (T-RO) 2025年最新发表的论文中,提出了一种创新的薄柔性物体操控方法LTDOM。该方法结合了多模态感知与被动顺应性,首次成功地在具有挑战性的现实环境中展示了机器人对多种广泛的薄柔性物体的分离和抓取能力。该论文的第一作者赵超,目前为吉林大学人工智能学院的准聘副教授。通讯作者为香港科技大学的陈启峰教授和于宏宇教授。论文链接:10.1109/TRO.2025.3588448视频1: 机器人在表演期间协助小提琴手翻乐谱。研究背景精确分离和抓取单层薄柔性物体是日常生活中的常见任务,如翻书。然而,由于薄物体的结构特性、堆叠性以及高维的配置空间,这些任务展现出复杂的动态特性,对操控控制和感知提出了巨大挑战。传统的机器人操控方法依赖于精确控制,但往往难以应对多个目标:适应表面变形与滑动、保持稳定接触、避免物体损坏并成功进行分离与抓取。此外,视觉传感器无法充分捕捉摩擦力与刚度等物理特性,且容易被手指或物体遮挡,因此机器人必须依赖触觉和本体感知来获取与物体交互的反馈。尽管机器人领域取得了显著进展,甚至部署了众多商用平台,但目前即便是最先进的机器人在操控纤薄、可变形物体时,也无法与人类相媲美。研究历程:七年的探索LTDOM研究的起点可以追溯到2019年,团队成员江春李(LTDOM共一)提出了FlexFlip (Dynamic Flex-and-Flip Manipulation of Deformable Linear Objects) 的框架。该框架引入了一种软性欠驱动手,基于连续体可微分的势能与动能转换建模,首次使机器人能够通过类人的双指操作从桌面上抓取一张纸,而不是通过吸附或铲取的方式。这项研究展示了被动顺应性在操控薄柔性物体中的潜力,为后续研究奠定了基础。图1:FlexFlip (2019)到了2023年,团队基于FlexFlip (2019)中的软性欠驱动手,发布了Flipbot: Learning Continuous Paper Flipping via Coarse-to-Fine Exteroceptive-Proprioceptive Exploration,其中提出了基于视觉-本体感知探索学习方法。Flipbot不仅可以像FlexFlip一样抓起桌子上的薄物体,且首次成功实现了使用通用机器人来进行逐页翻书。图2:Flipbot (2023)在2025年,团队进一步整合了被动柔顺性、触觉感知与本体感知,推出了LTDOM系统。该研究基于柔性欠驱动手的设计,结合视觉、触觉与力觉传感器,通过强化学习使机器人能够高效完成翻书、展示衣物和处理织物等复杂任务。尤其是在面对具有不同物理属性的薄物体时,LTDOM展现了强大的适应能力,能够精准分离和抓取单层柔性薄物体。LTDOM核心方法:柔性欠驱动手指与多模态感知的结合LTDOM提出了一种新颖的解决方案,旨在应对现实世界中各种薄柔性物体的单层分离与抓取。关键技术之一是柔性欠驱动手指的使用。不同类型的薄物体在外力作用下表现出不同的行为。例如,织物容易凹陷,而书页则能抵抗压力但会屈服于剪切力。采用的柔性手指能跟随物体的变形,保持持续接触并限制施加的破坏性力量。该系统通过被动柔顺性,使机器人能够轻柔地与物体交互,从而避免精确控制的需求,成功完成抓取任务。同时每个手指集成了触觉传感器,手腕上还配备了F/T传感器,提供类似人类手部的触觉反馈与本体感知。其中罗力帆(LTDOM共一)设计并制造了指尖上的触觉传感器,通过多阵列镜头和小孔成像等技术,使得触觉传感器能够放在与人类手指相似的大小空间内。图3:配备了触觉传感器的软性欠驱动手指与 Flipbot类似, LTDOM使用无模型强化学习在现实世界中学习从感知到机器人控制的直接映射,从而驱动机器人。然而,仅凭无模型强化学习无法获得稳定的策略。因此,LTDOM引入了额外模块来完善系统性能。在这里插入图片描述

图4:LTDOM整体框架第一个是主动感知(active sensing)。任务中的奖励稀疏性使得机器人无法从零开始发现有效的策略,而获取与任务相关的感知仍然是一个问题。为了解决这些问题,LTDOM采用了一种名为“滑动”的主动探索性运动,即机器人手指在物体表面滑动。滑动动作由一个神经网络引导,该神经网络接收来自腕戴式摄像头的输入,并根据反映人类直觉的数据进行训练(例如,从右上角翻书页)。这种特定于位置的滑动不仅为机器人提供了合适的初始姿态,减少了策略学习的搜索空间,而且还产生了丰富的动态交互,揭示了诸如弯曲刚度和摩擦力等潜在的物理特性。另一个是分层的学习结构,旨在提高训练效率。 Flipbot引入了重置机制和基于页码的自动奖励信号,显著减少了人工干预。在此框架的基础上,我们扩展了训练设置,将织物材料纳入其中。这种多样性的增加需要更深入的探索和更长的训练时间。为了解决这个问题,双循环结构通过对动作空间进行结构化和高效的探索和利用来加速学习。外环根据所需的运动范围在粗略和精细动作空间之间进行选择,而内环则输出具体的机器人动作。通过根据当前感知和学习经验选择合适的动作空间,可以减少不必要的动作探索视频2:机器人逐页翻书实验验证与效果LTDOM在多个复杂场景中取得了显著进展。实验表明,机器人能够成功完成翻书、整理衣物、抓取毛巾等任务。特别是在面对具有不同物理特性的薄物体时,LTDOM展现了高度的适应能力。例如,在抓取不同厚度和压缩强度的纸张和织物时,机器人能够快速调整操作策略,精确抓取单层物体。实验中抓取多层或者没有抓取到都被视作失败。视频3:机器人在未见过的物体上实现泛化自2023年上半年起,LTDOM及其相关系统长期作为展示项目在香港科技大学郑家纯机器人研究院供来宾访客参观展示逾百次,证明了其在现实应用场景下的可靠性。在这里插入图片描述
图5:各界访客招生广告:本文第一作者赵超,现为吉林大学人工智能学院准聘副教授,博士生导师。2025 年博士毕业于香港科技大学,师从陈启峰教授。硕士毕业于英国伯明翰大学,师从Jeremy Wyatt 教授。研究重点是开发赋予机器人智能的算法和系统,使其能够在现实环境中有效地感知、推理、行动并协助人类。研究兴趣涵盖机器人操纵、灵巧手、触觉多模态以及人形机器人的长期自主性。在机器人领域权威期刊会议 T-RO、RA-L、ICRA、IROS 上发表多篇论文。现招收2026级博士生1名、硕士生2-3名,提供细致的学术指导和充足的研究经费。具备相关背景的学生欢迎通过邮件联系,邮件请附上简历并简要说明研究兴趣。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐