百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

让机器人感知你的「Here you are」,清华百万场景打造通用人机交接

cac55 2024-09-27 07:05 25 浏览 0 评论

机器之心专栏

机器之心编辑部

来自清华大学交叉信息研究院的研究者提出了「GenH2R」框架,让机器人学习通用的基于视觉的人机交接策略(generalizable vision-based human-to-robot handover policies)。这种可泛化策略使得机器人能更可靠地从人们手中接住几何形状多样、运动轨迹复杂的物体,为人机交互提供了新的可能性。

随着具身智能(Embodied AI)时代的来临,我们期待智能体能主动与环境进行交互。在这个过程中,让机器人融入人类生活环境、与人类进行交互(Human Robot Interaction)变得至关重要。我们需要思考如何理解人类的行为和意图,以最符合人类期望的方式满足其需求,将人类放在具身智能的中心(Human-Centered Embodied AI)。其中一个关键的技能是可泛化的人机交接(Generalizable Human-to-Robot Handover),它使机器人能够更好地与人类合作,完成各种日常通用任务,如烹饪、居室整理和家具组装等。

大模型的火爆发展预示着海量高质量数据+大规模学习是走向通用智能的一种可能方式,那么能否通过海量机器人数据与大规模策略模仿获取通用人机交接技能?然而,若考虑在现实世界中让机器人与人类进行大规模交互学习是危险且昂贵的,机器很有可能会伤害到人类:

而在仿真环境中(Simulation)进行训练,用人物仿真和动态抓取运动规划来自动化提供海量多样的机器人学习数据,然后将其部署到真实机器人上(Sim-to-Real Transfer),是一种更可靠的基于学习的方法,可以大大拓展机器人与人协作交互的能力。

因此,「GenH2R」框架被提出,分别从仿真(Simulation),示例(Demonstration),模仿(Imitation)三个角度出发,让机器人第一次基于端到端的方式学习对任意抓取方式、任意交接轨迹、任意物体几何的通用交接:1)在「GenH2R-Sim」环境中提供了百万级别的易于生成的各种复杂仿真交接场景,2)引入一套自动化的基于视觉 - 动作协同的专家示例(Expert Demonstrations)生成流程,3)使用基于 4D 信息和预测辅助(点云 + 时间)的模仿学习(Imitation Learning)方法。

相比于 SOTA 方法(CVPR2023 Highlight),GenH2R 的方法在各种测试集上平均成功率提升 14%,时间上缩短 13%,并在真机实验中取得更加鲁棒的效果。

  • 论文地址:https://arxiv.org/abs/2401.00929
  • 论文主页:https://GenH2R.github.io
  • 论文视频:https://youtu.be/BbphK5QlS1Y

方法介绍

A. 仿真环境(GenH2R-Sim)

为了生成高质量、大规模的人手 - 物体数据集,GenH2R-Sim 环境从抓取姿势和运动轨迹两方面对场景建模。

在抓取姿势方面,GenH2R-Sim 从 ShapeNet 中引入了丰富的 3D 物体模型,从中挑选出 3266 个适合交接的日常物体,使用灵巧抓取的生成方法(DexGraspNet),总共生成了 100 万个人手抓住物体的场景。在运动轨迹方面,GenH2R-Sim 使用若干控制点生成多段光滑的 Bézier 曲线,并引入人手和物体的旋转,模拟出手递物体的各种复杂运动轨迹。

GenH2R-Sim 的 100 万场景中,不仅在运动轨迹(1 千 vs 100 万)、物体数量(20 vs 3266)两方面远超之前最新工作,此外,还引入了接近真实情境的互动信息(如机械臂足够靠近物体时,人会配合停止运动,等待完成交接),而非简单的轨迹播放。尽管仿真生成的数据不能完全逼真,但实验结果表明,相比小规模的真实数据,大规模的仿真数据更有助于学习。

B. 大规模生成利于蒸馏的专家示例

基于大规模的人手和物体运动轨迹数据,GenH2R 自动化地生成了大量专家示例。GenH2R 寻求的 “专家” 是经过改进后的 Motion Planner(如 OMG Planner),这些方法是非学习、基于控制优化的,不依赖于视觉的点云,往往需要一些场景状态(比如物体的目标抓取位置)。为了确保后续的视觉策略网络能够蒸馏出有益于学习的信息,关键在于确保 “专家” 提供的示例具有视觉 - 动作相关性(Vision-action correlation)。规划时如果知道最后落点,那么机械臂可以忽略视觉而直接规划到最终位置 “守株待兔”,这样可能会导致机器人的相机无法看到物体,这种示例对于下游的视觉策略网络并没有任何帮助;而如果频繁地根据物体位置进行重新规划,可能会导致机械臂动作不连续,出现奇怪的形态,无法完成合理的抓取。

为了生成出利于蒸馏(Distillation-friendly)的专家示例,GenH2R 引入了 Landmark Planning。人手的运动轨迹会按照轨迹光滑程度和距离被分成多段,以 Landmark 作为分割标记。在每一段中,人手轨迹是光滑的,专家方法会朝着 Landmark 点进行规划。这种方法可以同时保证视觉 - 动作相关性和动作连续性。

C. 以预测为辅助的 4D 模仿学习网络

基于大规模专家示例,GenH2R 使用模仿学习的方法,构建 4D 策略网络,对观察到的时序点云信息进行几何和运动的分解。对于每一帧点云,通过迭代最近点算法(Iterative Closest Point)计算和上一帧点云之间的位姿变换,以估计出每个点的流(flow)信息,使得每一帧点云都具有运动特征。接着,使用 PointNet++ 对每一帧点云编码,最后不仅解码出最终需要的 6D egocentric 动作,还会额外输出一个物体未来位姿的预测,增强策略网络对未来手和物体运动的预测能力。

不同于更加复杂的 4D Backbone(例如 Transformer-based),这种网络架构的推理速度很快,更适用于交接物体这种需要低延时的人机交互场景,同时它也能有效地利用时序信息,做到了简单性和有效性的平衡。

实验

A. 仿真环境实验

GenH2R 和 SOTA 方法进行了各种设定下的比较,相比于使用小规模真实数据训练的方法,在 GenH2R-Sim 中使用大规模仿真数据进行训练的方法,可以取得显著的优势(在各种测试集上成功率平均提升 14%,时间上缩短 13%)。

在真实数据测试集 s0 中,GenH2R 的方法可以成功交接更复杂的物体,并且能够提前调整姿势,避免在夹爪靠近物体时再频繁进行姿势调整:

在仿真数据测试集 t0(GenH2R-sim 引入)中,GenH2R 的方法可以能够预测物体的未来姿势,以实现更加合理的接近轨迹:

在真实数据测试集 t1(GenH2R-sim 从 HOI4D 引入,比之前工作的 s0 测试集增大约 7 倍)中,GenH2R 的方法可以泛化到没有见过的、具有不同几何形状的真实世界物体。

B. 真机实验

GenH2R 同时将学到的策略部署到现实世界中的机械臂上,完成 “sim-to-real“的跳跃。

对于更复杂的运动轨迹(例如旋转),GenH2R 的策略展示出更强的适应能力;对于更复杂的几何,GenH2R 的方法更可以展现出更强的泛化性:

GenH2R 完成了对于各种交接物体的真机测试以及用户调研,展示出很强的鲁棒性。

了解更多实验、方法内容,请参考论文主页。

团队介绍

该论文来自清华大学 3DVICI Lab、上海人工智能实验室和上海期智研究院,论文的作者为清华大学学生汪子凡(共同一作)、陈峻宇(共同一作)、陈梓青和谢鹏威,指导老师是弋力和陈睿。

清华大学三维视觉计算与机器智能实验室(简称 3DVICI Lab),是清华大学交叉信息研究院下的人工智能实验室,由弋力教授组建和指导。3DVICI Lab 瞄准人工智能最前沿的通用三维视觉与智能机器人交互问题,研究方向涵盖具身感知、交互规划与生成、人机协作等,与机器人、虚拟现实、自动驾驶等应用领域密切联系。团队研究目标是使智能体具备理解并与三维世界交互的能力,成果发表于各大顶级计算机会议、期刊上。

相关推荐

无力吐槽的自动续费(你被自动续费困扰过吗?)

今天因为工作需要,需要在百度文库上下载一篇文章。没办法,确实需要也有必要,只能老老实实的按要求买了个VIP。过去在百度文库上有过类似经历,当时为了写论文买了一个月的VIP,后面也没有太注意,直到第二个...

百度文库推出“文源计划”创作者可一键认领文档

11月7日,百度文库发布了旨在保护创作者权益的“文源计划”。所谓“文源计划”,即为每一篇文档找到源头,让创作者享受更多的权益。据百度文库总经理李小婉介绍,文源计划分为三部分,分别是版权认证、版权扶持和...

有开放大学学号的同学,百度文库高校版可以用了。

还在网上找百度文库的下载方式,只要从身边的朋友在读开放大学的,那他(她)的学号就可以登陆到国家开放大学图书馆,还使用百度文库高校版来下载。与百度文库稍有不同,但足够使用了。现转国图链接如下:htt...

搜索资源方法推荐(搜索资源的方法)

今天msgbox就要教大家如何又快又准的搜到各类资源,第一点,排除干扰百度搜索出来啊经常前排展示它的产品以及百度文库,如何去除呢?很简单,后面输入空格减号百度文库,比如你搜高等数学百度文库很多,只要后...

一行代码搞定百度文库VIP功能(2021百度文库vip账号密码共享)

百度文库作为大家常用查资料找文档的平台,大多数文档我们都可以直接在百度文库找到,然而百度文库也有让人头痛的时候。好不容易找到一篇合适的文档,当你准备复制的时候他却提示你需要开通VIP才能复制~~~下载...

百度文库文档批量上传工具用户说明书

百度文库文档批量上传工具用户说明书1、软件主要功能1、批量上传文档到百度文库,支持上传到收费、VIP专享、优享以及共享。2、支持自动分类和自动获取标签3、支持多用户切换,一个账户传满可以切换到...

百度文库现在都看不到文档是否上传成功,要凉了吗?

打开知识店铺,百度文库文档里显示都是下载这一按键,上传的文档也看不到是否成功?咋情况,要取消了吗?没通过审核的也不让你删除,是几个意思,想通吃吗?现在百度上传文档也很费劲,有时弄了半天的资料上传审核过...

微信推广引流108式:利用百度文库长期分享软文引流

百度文库相对于百度知道、百度百科来说,操作上没那么多条条框框,规则上也相对好把握些。做一条百度知道所花费的精力一般都会比做一条百度文库的要多些,老马个人操作下来觉得百度文库更好把握。但见仁见智吧,今天...

职场“避雷”指南 百度文库推出标准化劳动合同范本

轰轰烈烈的毕业季结束了,众多应届生在经过了“职场海选”后,已正式成为职场生力军的一员。这一阶段,除了熟悉业务,签订劳动合同、了解职场福利也迅速被提上日程。而随着国人法律意识的增强,百度文库内《劳动合同...

《百度文库》:素材精选宝库(百度文库官网首页)

《百度文库》:独特功能助力选择高质量素材在当今信息爆炸的时代,如何高效地获取并利用有价值的素材成为了许多人面临的挑战。而《百度文库》作为百度公司推出的一款在线文档分享平台,凭借其丰富的资源、强大的功能...

深度整合和开放AI能力 百度文库和网盘推出内容操作系统「沧舟OS」

【TechWeb】4月25日消息,Create2025百度AI开发者大会上,百度文库和百度网盘推出全球首个内容操作系统——沧舟OS。基于沧舟OS,百度文库APP全新上线「GenFlow超能搭子」...

女子发现大二作业被百度文库要求付费下载,律师:平台侵权,应赔偿

近日,28岁的黎女士在百度百科搜索家乡的小地名时,发现了自己在大二完成的课题作业。她继续搜索,发现多个平台收录了该文,比如豆丁网和文档之家等,有的还设置了付费或积分下载。2月15日,九派新闻记者以用户...

2016杀入百度文库的新捷径,只有少数人才知道的喔

百度的产品在SEO优化中的分量真不用多说,其实很多人都像我一样一直在找捷径。但是我经常发现很多人都是在用死方法。比如发贴吧发帖而不知道去申请一个吧主,知道自问自答而不知道去申请一个合作资格。口碑和贴吧...

百度文库付费文档搜索方法(百度文库付费文档搜索方法有哪些)

一直以来,百度文库中无论是个人中心还是个人主页,都没有像淘宝一样的店内搜索功能,连最近新开的知识店铺也没有设计店内搜索功能,这无论是对上传用户还是下载用户都不方便,上传用户想要搜索自己的文档无法办到...

供读者免费使用!泰达图书馆机构版百度文库新年上新啦

在泰达图书馆读者使用百度文库数字资源不需要VIP,免-费-用!惊不惊喜?快来了解一下吧……新年伊始,为满足区域企业、高校、科研院所以及居民群众在教学、科研及学习过程中,对各类文献资源的需求,泰达图书馆...

取消回复欢迎 发表评论: