清华团队corl 2024摘得最佳论文奖,机器人模仿学习新突破!-九游会j9登录入口

   时间:2025-01-29 13:54 作者:江紫萱

在近日闭幕的2024年度全球机器人学习顶级盛会corl(conference on robot learning)上,来自中国清华大学的高阳教授团队凭借出色研究成果,在x-embodiment workshop中荣获最佳论文奖。该奖项不仅彰显了团队在机器人模仿学习领域的卓越贡献,也标志着中国学者在全球机器人技术前沿探索中的显著地位。

corl会议作为机器人学习领域的顶尖交流平台,每年都会吸引来自世界各地顶尖学府的最新研究成果。此次获奖的论文《data scaling laws in imitation learning for robotic manipulation》,由高阳教授及其学生林凡淇、胡英东、盛平岳、chuan wen、游嘉诚共同完成。论文聚焦于模仿学习中数据规模定律的应用,特别是在实现零样本泛化方面的潜力。

研究过程中,团队通过精心设计的实验方案,收集了超过4万次人类演示数据,并在超过1.5万次机器人实际操作中进行了验证。实验发现,策略的泛化能力关键在于环境和对象的多样性,而非演示数量的简单累积。基于这一发现,团队创新性地提出了一种高效数据收集策略,仅需四位采集者花费一下午时间,即可获取足够数据,使机器人在新环境和新对象上的任务成功率接近90%。

为了进一步验证模型的泛化能力,研究团队将机器人部署在多种野外环境中,包括火锅店、咖啡馆、电梯、喷泉等,这些环境在数据收集阶段均未涉及。结果显示,模型在这些全新环境中表现出色,泛化能力远超预期。

论文详细阐述了实验设计过程,团队使用手持夹持器(umi)在不同环境中收集人类演示数据,并采用扩散策略(diffusion policy)对数据进行建模。实验任务包括倒水、鼠标移动、叠毛巾和拔掉充电器等,通过改变训练环境数量、物体数量和演示数量,深入研究了策略泛化性能的变化规律。

研究结果显示,策略的泛化能力与训练物体数量、环境数量和训练环境-物体对数关系密切,符合幂律分布。随着训练物体和环境数量的增加,策略在未见过的物体和环境上的表现显著提高。这一发现为机器人模仿学习领域提供了新的理论支撑和实践指导。

获奖团队成员林凡淇和胡英东均为清华大学交叉信息研究院(iiis)的博士生,他们的研究重点聚焦于具身智能领域,致力于通过大规模数据实现机器人的人类水平操作能力。盛平岳是iiis姚班的本科生,对机器人技术、模仿学习和算法有着浓厚兴趣。chuan wen同为iiis博士生,与宾夕法尼亚大学grasp实验室保持密切合作,目前在伯克利人工智能研究(bair)担任访问学者。游嘉诚则是iiis的一年级博士生。

高阳教授作为团队指导老师,现任上海期智研究院pi及清华大学交叉信息研究院助理教授,专注于强化学习与机器人领域的研究。他领导的具身视觉与机器人实验室(evar lab)致力于利用人工智能技术赋能机器人,打造通用的具身智能框架。

corl 2024会议还宣布了其他最佳论文获奖名单,包括kuo-hao zeng等人的《poliformer: scaling on-policy rl with transformers results in masterful navigators》和franck djeumou等人的《one model to drift them all》。这些研究同样在机器人学习领域取得了重要突破,为未来的技术发展提供了宝贵借鉴。

 
 
更多>同类内容
推荐图文
推荐内容
点击排行
智快科技微信账号
itbear微信账号

微信扫一扫
加微信拉群
电动汽车群
科技数码群

网站地图