benben82 发表于 2025-4-13 08:17:46

人类教机器人用工具?——一种低成本高效的模仿学习新方法 New

我们人类天生擅长使用工具:用筷子夹菜、用锤子钉钉子、用铲子翻炒菜肴……这些看似简单的动作背后,其实蕴藏着复杂的感知与协调能力。那么,能不能让机器人也学会这些技能呢?能不能像我们一样“看一眼就会做”?
这是机器人研究领域一个长期追求的目标。最近,一种全新的模仿学习方法为这个问题带来了突破性的进展。这项技术试图通过模仿人类使用工具的行为,教会机器人完成各种复杂的操作任务,不仅效率更高,而且成本更低。
传统方法的“尴尬”局限在过去,机器人想要学习一项技能,往往需要大量的数据。最常见的收集方法包括遥操作——操作者通过手柄控制机器人完成任务,或者用一个“假手”模仿人类的手势进行演示。但这些方式效率低、操作难度高,而且还不够灵活。一个简单的操作过程,可能需要几小时甚至几天来训练,而且这些数据往往只能适用于一种机器人或特定场景。
更关键的是,这种方法很难捕捉到人类操作中那些自然、灵活、隐含经验的动作细节。
换个角度:人类操作的数据本身就是宝藏与其让人去“伪装成机器人”,为什么不直接让机器人“看”人类是怎么做的?这项新研究的核心思想正是如此:利用人类自然使用工具的过程,来训练机器人的操作策略。
那么问题来了:人类和机器人差别那么大,怎么“看懂”人类的数据?又如何让机器人“模仿”得像?
技术方案:从观察到模仿,背后有巧思这项研究提出了一个完整的框架,把人类的行为转化为可被机器人理解和执行的操作策略。整个过程分为几个关键步骤:
1. 采集数据:看人类怎么做研究人员使用两台RZB相机,从不同角度采集人类使用工具的全过程。这些相机能够生成立体图像,通过3D重建技术(如基于“Marching Cubes”的建模方法)将整个操作场景变成三维模型。
2. 增强视角:让机器人“看得更全”为了增加数据的多样性,研究者引入了一种叫**高斯渲染(Gaussian Splatting)**的图像合成技术,它能生成从多个新视角“拍摄”的图像,就好像机器人站在不同位置“围观”人类操作。这种方法有效增强了数据的广度和代表性。
3. 去除干扰:只保留关键工具信息因为人类和机器人在外形上差别很大,人手的形状、动作方式对机器人来说可能是“噪声”。为了消除这种干扰,研究人员使用语义分割模型(比如Grounded SAM),自动将图像中的人手或机器人的末端执行器部分“抠掉”,只保留工具和物体的交互过程,从而构建出一个与具体执行者无关的“中立观察空间”。
4. 任务表示:教机器人“做什么”机器人需要知道怎么动手。研究人员用工具在任务空间的运动表示来描述操作,比如6维空间的位置和姿态变化,这种方式对相机视角和机器人的身体结构具有良好的鲁棒性。
5. 策略学习:用扩散模型学会模仿最终,系统采用一种先进的“扩散策略模型”(Diffusion Policy)来从这些处理后的图像中学习操作方法。这种模型能够模拟从“观察”到“动作”的全过程,实现机器人对人类行为的高保真模仿。
成果如何?不仅快,而且准!研究人员在多个复杂任务中测试了该方法,比如:
肉丸夹取:夹住容易滚动的小球状物体;
平底锅翻转:控制角度把锅中的物体翻起;
酒瓶平衡:精细地调整物体位置保持其平衡。

结果显示,与传统遥操作数据训练出的策略相比,这种基于人类行为学习的方法:
成功率提高了71%;
数据收集时间减少了77%;
在诸如“快速翻转”、“精确定位”等任务上,表现尤其突出。

甚至,在一些传统方法根本无法完成的任务中,这种新方法也展现出惊人的适应性和学习能力。
页: [1]
查看完整版本: 人类教机器人用工具?——一种低成本高效的模仿学习新方法 New