券商观点|RT-2：从VLM到VLA，机器人软件体系再次进步

2023-08-02 15:56:22 来源：同花顺iNews

　　8月2日，国盛证券发布一篇计算机行业的研究报告，报告指出，从VLM到VLA，机器人软件体系再次进步。

　　报告具体内容如下：

　　RT-2面世，VLA模型将视觉-语言转化为机器人动作。近期GoogleDeepMind发布RoboticTransformer2(RT-2)，是一种新颖的视觉-语言-动作(VLA)模型。RT-2建立在RoboticTransformer1(RT-1)的基础上，这是一个经过多任务演示训练的模型，它可以学习机器人数据中看到的任务和对象的组合。RT-2以视觉语言模型（VLM）为基础，VLM已接受网络规模数据的训练，以执行视觉问答、图像字幕或对象识别等任务，RT-2采用PaLI-X和PaLM-E作为支柱，将一个或多个图像作为输入，并生成一系列通常代表自然语言文本的标记。RT-2通过将机器人动作表示为模型输出中的token（类似于语言token）来制机器人，并将操作描述为可以由标准自然语言标记生成器处理的字符串。与之前的基线（例如之前的RT-1模型和VC-1等模型）相比，RT-2的泛化性能大幅提高。GoogleDeepMind对机器人没看见过的物体、背景和环境进行不同程度的评估，这需要机器人从VLM预训练中学习泛化，RT-2保留了机器人数据中看到的原始任务的性能，并提高了机器人在以前看不见的场景中的性能，从RT-1的32%提高到62%，显示了大规模预训练的巨大优势。受到大语言模型中使用的思维链提示方法的启发，GoogleDeepMind还将机器人控制与思维链推理相结合，以便能够在单个模型中学习长期规划和低级技能。

　　从VLM到VLA，RT-2进一步验证了“ViT+类GPT+机械”的机器人方案。从VLM到VLA，主要进展在于将机器人动作直接作为模型token输出，省去了VLM模型将输出的指令翻译成动作控制信号的步骤。ViT模型将语言模型的transformer架构用于视觉模型，代替了传统的CNN，统一了CV和NLP的架构。2022年9月，Google推出了PaLI，一个统一的语言图像模型，编码器的输入部分使用了ViT。2023年3月Google推出有5620亿参数的PaLM-E模型，将540BPaLM和ViT-22B结合。在RT-1中，模型省略了将输出的指令转化为动作控制信号的步骤，直接把直接把动作当token输出。RT-2结合了PaLI-X和PaLM-E，针对机器人和网络数据共同微调预先训练的VLM模型。生成的模型接收机器人摄像头图像并直接预测机器人要执行的动作。通过基于PaLM-E和PaLI-X的VLA的两个实例化，RT-2带来了高度改进的机器人策略，更重要的是通过视觉语言的预训练带来了显著更好的泛化性能。RT-2不仅是对现有VLM模型的简单而有效的修改，还展示了构建通用物理机器人的前景，让机器人可以推理、解决问题和解释信息，以在现实中执行各种任务。

　　多模态GPT助力机器人软件技术进步，加速机器人产业进展。从PaLM-E到以RT-2为代表的机器人软件模型算法不断提升，有望加速提升通用机器人与行业机器人的迭代速度，带动下游需求的产生，并实现包扩软件算法、机械组件、机器人整机等在内的产业链共振。行业机器人的实现难度相对通用机器人更低，而多模态GPT的发展是通往行业机器人的钥匙。多模态GPT助力机器人在交互能力、规划控制能力、泛化能力、感知能力等多方面得到极大提升。我们认为，从下半年开始的1~5年内，随着GPT的发展带来AI泛化能力提升，通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活。在5-10年内，结合复杂多模态方案的大模型有望具备完备的与世界交互的能力，在通用机器人、虚拟现实等领域得到应用。

　　建议关注：1）算法及行业机器人潜力公司：大华股份（002236）、海康威视（002415）、千方科技（002373）、中科创达（300496）、云从科技、中科信息（300678）、亿嘉和（603666）、萤石网络、商汤科技等。2）硬件供应商：三花智控（002050）、拓普集团（601689）、鸣志电器（603728）、绿的谐波、峰岹科技、双环传动（002472）、中大力德（002896）、国茂股份（603915）等。

　　风险提示：机器人技术迭代不及预期风险；经济下行超预期风险；行业竞争加剧风险。

　　声明：本文引用第三方机构发布报告信息源，并不保证数据的实时性、准确性和完整性，数据仅供参考，据此交易，风险自担。

关注同花顺财经（ths518），获取更多机会

0人

24小时播报>>

我的自选股自选股新闻

代码\|股票名称	最新	涨跌幅

券商观点|RT-2：从VLM到VLA，机器人软件体系再次进步

网站地图