ZeR0编辑
漠影智东西7月29日消息,GoogleDeepMind再放AI机器人大招!周五,这家前沿AI研究机构宣布以训练AI聊天机器人的方式训练了一款全新的机器人模型RoboticTransformer2(RT-2)。RT-2相当于机器人版ChatGPT,被GoogleDeepMind称作是其视觉-语言-动作(VLA)模型的新版本。该模型可以教会机器人更好地识别视觉和语言模态,能够解释人类用自然语言发出的指令,并推断出如何做出相应的行动。它还可以理解英语以外的语言的指示。结合思维链推理,RT-2可以执行多阶段语义推理。即便是一些抽象概念,RT-2也能理解并指挥机械臂做出正确的动作。比如让它找一把临时用的简易锤子,它会抓起石头;让它给疲惫的人选一款饮料,它会选择红牛;让它把可乐罐移到泰勒·斯威夫特的照片上,它也能顺利完成。根据论文,RT-2模型基于网络和机器人数据进行训练,利用了谷歌自己的Bard等大型语言模型的研究进展,并将其与机器人数据(例如要移动的关节)相结合,然后将这些知识转化为机器人控制的通用指令,同时保留web-scale能力。
论文
转载请注明:http://www.0431gb208.com/sjslczl/6904.html