擀面皮包饺子,MIT、CMU等的研究员让机器人自己学会了

你能想象让机器人揉面团,擀面皮,包饺子吗?对机器人来说,操纵衣物、面团等柔软无坚固形状的可形变材料向来是个棘手的问题。面团的形状可能以多种方式改变,而这些变化很难用方程式表示。
另外,从面团中建立新形状需要多个环节并使用不同的工具。对于机器人来说,学习具有长步骤序列的操作任务特别困难,因为学习往往是通过反复试验完成的,其中有许多可能的选择。

擀面皮包饺子,MIT、CMU等的研究员让机器人自己学会了
当地时间3月30日,麻省理工学院、卡内基梅隆大学和加州大学圣地亚哥分校的研究人员为这种任务提出了一种更好的方式。他们制造了一种“两阶段学习框架”,名为“Teacher”(老师)的算法处理机器人要完成任务所必需的每个步骤,然后它训练“Student”(学生)机器学习模型去学习关于何时及如何执行任务所需的每项技能的抽象概念,比如用擀面杖。有了这些知识,系统就会推断出如何执行技能来完成所有任务。
研究人员觉得,这种他们称之为DiffSkill的方式能够在模拟中执行庞杂的操作任务,例如切和揉面团,或从砧板附近搜集面团,同时优于其他机器学习方法。
除了制作披萨、饺子外,这种方法还能够运用于机器人需要操作可形变物体的其他环境中,如为老年人或运动障碍者喂食、洗澡或穿衣的看护机器人。
“这种方式更贴近我们人类计划运动的方式。当一个人执行一项长期任务时,我们并没有写下所有的环节。我们有一个更高级别的计划者,它大体告诉我们在此流程中需要达成哪些阶段以及一些中间目标,然后我们执行它们,”论文作者之一,MIT计算机科学与人工智能专业的研究生李云珠说道。
分开来看详细的工作原理。DiffSkill框架中的“Teacher”是一种轨迹优化算法,能够处理物体初始状态和目标位置很贴近的短视界(short-horizon)任务。轨迹优化器在模仿现实世界的物理模拟器中工作(叫做可微物理模拟器,它将“Diff”放入“DiffSkill”中)。“Teacher”算法使用模拟器中的信息来学习面团在每个阶段必然如何移动,一次一个,然后输出这些轨迹。
然后“Student”神经网络理解模仿老师的动作。作为输入,它使用两个摄像头图像,一个显示当前状态的面团,另一个显示任务终止时的面团。神经网络生成一个高级计划,以判断如何将不同的技能关联起来以达到目标。然后,它为每个技能生成特定的、短视界的轨迹,并将命令直接发送到工具。
研究人员使用这种技术对三种不同的模拟面团操作任务进行了实验。在一项任务中,机器人使用抹刀将面团举到砧板上,然后使用擀面杖将其压平。在另一个案例中,机器人使用抓手从柜台上搜集面团,将其放在抹刀上,然后将其移动到砧板上。在第三个任务中,机器人用刀将一堆面团切成两半,然后使用夹具将每一块面团运送到不同的位置。
“DiffSkill能够胜过依赖强化学习的流行技术,在强化学习中,机器人通过屡次试验来学习任务。实际上,DiffSkill是唯一可以成功完成所有三个面团操作任务的方法。有趣的是,我们发现‘Student’神经网络甚至可以胜过‘Teacher’算法,”卡内基梅隆大学(CMU)研究生林兴宇说道。
林兴宇觉得,这个框架为机器人获得新技能提供了一种新奇的方式,能够将这些技能链接起来,以处理更庞杂的任务。这些任务超过了以前的机器人系统的能力。
因为他们的方法侧重于控制工具(抹刀、刀、擀面杖等),所以它可以应用于不同的机器人,但前提是它们要使用研究人员定义的特定工具。未来,他们计划将工具的形状整合到“Student”网络的推理中,以便将其应用于其他设备。
研究人员计划通过使用3D数据作为输入来提高DiffSkill的性能,而不是使用难以从模拟传输到现实世界的2D图像。他们还打算使神经网络计划过程更高效,并搜集更多样的训练数据,以加强DiffSkill对新环境的泛化能力。从长远来看,他们打算将DiffSkill应用到更多元化的任务中,包含布料操作。
这项研究由卡内基梅隆大学(CMU)研究生林兴宇,加州大学圣地亚哥分校研究生黄志奥,麻省理工学院脑与认知科学系认知科学与计算职业发展教授JoshuaB.Tenenbaum,CMU助理教授DavidHeld,以及MIT-IBMWatsonAILab的研究科学家ChuangGan合作完成。其得到了美国国家科学基金会、LG电子、麻省理工学院-IBM沃森人工智能实验室、美国海军研究办公室和国防高级研究计划局的部分支持。

版权声明:himulu 发表于 2022年4月2日 am11:23。
转载请注明:擀面皮包饺子,MIT、CMU等的研究员让机器人自己学会了 | Hi目录

相关文章

暂无评论

暂无评论...