“逐帧时代”终结?自变量机器人全球首个“事件级预测能力”世界模型落地 具身智能加速规模化商用竞争

2026-05-30 13:03:27
分享
AIME

问财摘要

1、自变量机器人发布全球首个具备“事件级预测能力”的世界模型WALL-WM,该模型以抓取、归置等语义事件为预测单元,省去大量无效推演,让机器人拥有类似人类“抓重点”的思考模式。WALL-WM模型围绕语义事件重构具身智能推理逻辑,使机器人复刻人类抓核心目标的思考模式。
免责声明 内容由AI生成
文章提及标的
阿里巴巴--
人工智能--
人形机器人--
宇信科技--
特斯拉--

全球具身智能产业走到了技术路线与商业化的双重十字路口。

5月29日,自变量机器人发布全球首个具备“事件级预测能力”的世界模型WALL-WM,这意味着,具身智能开始跳出沿用数十年的“按时间均匀采样”传统范式,首次将现实中的“事件”作为世界模型的基本思考单位。

《每日经济新闻》记者从官方介绍了解到,该模型不再机械预测每一帧画面,而是自主判断关键瞬间,以抓取、归置等语义事件为预测单元,省去大量无效推演,让机器人拥有类似人类“抓重点”的思考模式。

值得一提的是,自变量在今年4月底刚完成近20亿元B轮融资,由小米战投与红杉中国联合领投,自变量也成为国内唯一同时获字节跳动、美团、阿里巴巴(BABA)、小米四家互联网巨头投资的具身智能企业。

天使投资人、资深人工智能(885728)专家郭涛在接受《每日经济新闻》记者采访时表示,WALL-WM的核心是围绕语义事件重构具身智能推理逻辑,依托事件的通用语义抽象属性,大幅提升跨物体、跨场景泛化能力。此次技术突破将加速机器人从实验室原型走向规模化商用。技术路线大洗牌:从“模仿轨迹”到“理解事件”

过去三年,VLA(视觉—语言—动作)架构是全球具身智能领域的绝对主流,但随着机器人真机部署规模扩大,VLA的结构性缺陷日益凸显。

自变量团队指出,文本、视觉、动作本质上不在同一流形:文本是低熵离散语义,视觉是高维连续观测流,动作受物理约束,三者既不共享空间邻域也不共享时间尺度,直接联合优化会严重损耗视频基础模型的先验能力。这也解释了为何多数VLA在实验室演示亮眼,真机表现却大打折扣。此外,传统VLA只能模仿训练数据中的轨迹,无法真正理解物理规律,不知道杯子为何会掉落、盘子悬在桌边会摔碎。

据官方介绍,此次自变量机器人WALL-WM的突破在于,它在世界模型基础上彻底抛弃了“固定时间长度动作块”的人为定义,提出“以动作为中心的语义事件”作为最小学习单元。伸手、抓取、提起等连贯行为片段,既能被语言精确描述,也能被视频覆盖和动作执行,成为连接三种模态的天然枢纽。这让模型从“指令→动作”的反应式映射,升级为“理解事件→预测物理演化→执行动作”的主动式推理。

此外,WALL-WM支持同一套权重下的事件模式与统一模式切换,无需重训即可适配“配合高层规划器”和“端到端独立闭环”两种场景。实验数据显示,其在具身视频生成、3D感知及真机Core15L1基准测试中均领先同类产品,尤其在抽象指令场景下表现突出。

对此,郭涛分析,WALL-WM模型最核心的特质,是围绕语义事件重构整套具身智能推理逻辑。它跳出行业主流的固定时间帧预测范式,以抓取、归置、抬放等关键语义事件作为基础预测单元,省去大量无关中间帧推演,使机器人复刻人类抓核心目标的思考模式。行业竞争新阶段:头部企业加速规模化商用竞争

可以看到,全球具身智能正处于从技术验证向规模化商用跨越的关键拐点。

TrendForce集邦咨询数据显示,2026年下半年全球人形机器人(886069)产业将进入商业化关键期,全年中国人形机器人(886069)产量预计同比增长94%。资本层面,2026年以来国内具身智能领域投资总额已超2025年全年,单笔10亿元以上融资达10起,资金从整机向全产业链渗透,上游零部件、中游具身大脑、下游RaaS(机器人即服务)平台均获大额注资。

头部企业也加速上市和商业化落地。宇树科技(300674)将于6月1日冲刺科创板“人形机器人(886069)第一股”,2025年实现营收17亿元、净利润6亿元;智元启动赴港IPO(首次公开募股),并通过拆分战略半年内诞生两家独角兽。国际市场上,特斯拉(TSLA)Optimus Gen-3已在上海超级工厂部署量产;Figure AI则不间断直播3个机器人在200个小时累计分拣包裹突破24.9万件,接近人类熟练工的水平。

在激烈竞争中,自变量凭借独特的技术路线和资本优势跻身第一梯队。其“一轮一个巨头”的融资路径备受关注:A轮美团、A+轮阿里、A++轮字节、B轮小米与红杉,累计融资额超30亿元。同时自变量也联合58同城探索机器人上门做家务的落地场景。

“为什么能够吸引这些大厂投资?我很难给出一个行业通用性的回答。”自变量机器人创始人兼CEO(首席执行官)王潜此前在接受《每日经济新闻》记者采访时坦言,“所有这些投资人投我们的逻辑,其实非常简单,就是投技术上的领先性。这几家大厂也在做大模型,应该是全世界做大模型最好的几家公司之一,他们自己的技术判断力很强,他们需要投某种意义上的技术第一性、技术驱动的事情。”

展望未来,郭涛表示,具身智能行业已经呈现四大明确趋势:一是真实场景泛化能力成为核心竞争锚点,实验室演示型产品将逐步被淘汰;二是高质量多维度数据集与精细化处理体系构筑长期壁垒,直接决定模型迭代上限;三是AI(人工智能(885728))大模型、机器人控制、多目传感、三维几何等多学科深度融合成为必然;四是商业化进程加速,应用场景从家用向工业、医疗等领域延伸,大厂自研团队与垂直技术企业的竞合将更加常态化。

王潜此前表示,当前具身机器人的硬件已基本成熟,核心瓶颈在数据和技术。“我们希望在2至3年里,实现物理世界的Aha Moment(顿悟时刻),就像当年ChatGPT带来的变革一样。”在他看来,机器人进入家庭的速度将超出市场预期,具身智能的爆发点已近在眼前。

每日经济新闻

免责声明:风险提示:本文内容仅供参考,不代表同花顺观点。同花顺各类信息服务基于人工智能算法,如有出入请以证监会指定上市公司信息披露平台为准。如有投资者据此操作,风险自担,同花顺对此不承担任何责任。
homeBack返回首页
不良信息举报与个人信息保护咨询专线:10100571违法和不良信息涉企侵权举报涉算法推荐举报专区涉青少年不良信息举报专区

浙江同花顺互联信息技术有限公司版权所有

网站备案号:浙ICP备18032105号-4
证券投资咨询服务提供:浙江同花顺云软件有限公司 (中国证监会核发证书编号:ZX0050)
AIME
举报举报
反馈反馈