“逐帧时代”终结？自变量机器人全球首个“事件级预测能力”世界模型落地具身智能加速规模化商用竞争

全球具身智能产业走到了技术路线与商业化的双重十字路口。

5月29日，自变量机器人发布全球首个具备“事件级预测能力”的世界模型WALL-WM，这意味着，具身智能开始跳出沿用数十年的“按时间均匀采样”传统范式，首次将现实中的“事件”作为世界模型的基本思考单位。

《每日经济新闻》记者从官方介绍了解到，该模型不再机械预测每一帧画面，而是自主判断关键瞬间，以抓取、归置等语义事件为预测单元，省去大量无效推演，让机器人拥有类似人类“抓重点”的思考模式。

值得一提的是，自变量在今年4月底刚完成近20亿元B轮融资，由小米战投与红杉中国联合领投，自变量也成为国内唯一同时获字节跳动、美团、阿里巴巴（BABA）、小米四家互联网巨头投资的具身智能企业。

天使投资人、资深人工智能（885728）专家郭涛在接受《每日经济新闻》记者采访时表示，WALL-WM的核心是围绕语义事件重构具身智能推理逻辑，依托事件的通用语义抽象属性，大幅提升跨物体、跨场景泛化能力。此次技术突破将加速机器人从实验室原型走向规模化商用。技术路线大洗牌：从“模仿轨迹”到“理解事件”

过去三年，VLA(视觉—语言—动作)架构是全球具身智能领域的绝对主流，但随着机器人真机部署规模扩大，VLA的结构性缺陷日益凸显。

自变量团队指出，文本、视觉、动作本质上不在同一流形：文本是低熵离散语义，视觉是高维连续观测流，动作受物理约束，三者既不共享空间邻域也不共享时间尺度，直接联合优化会严重损耗视频基础模型的先验能力。这也解释了为何多数VLA在实验室演示亮眼，真机表现却大打折扣。此外，传统VLA只能模仿训练数据中的轨迹，无法真正理解物理规律，不知道杯子为何会掉落、盘子悬在桌边会摔碎。

据官方介绍，此次自变量机器人WALL-WM的突破在于，它在世界模型基础上彻底抛弃了“固定时间长度动作块”的人为定义，提出“以动作为中心的语义事件”作为最小学习单元。伸手、抓取、提起等连贯行为片段，既能被语言精确描述，也能被视频覆盖和动作执行，成为连接三种模态的天然枢纽。这让模型从“指令→动作”的反应式映射，升级为“理解事件→预测物理演化→执行动作”的主动式推理。

此外，WALL-WM支持同一套权重下的事件模式与统一模式切换，无需重训即可适配“配合高层规划器”和“端到端独立闭环”两种场景。实验数据显示，其在具身视频生成、3D感知及真机Core15L1基准测试中均领先同类产品，尤其在抽象指令场景下表现突出。

对此，郭涛分析，WALL-WM模型最核心的特质，是围绕语义事件重构整套具身智能推理逻辑。它跳出行业主流的固定时间帧预测范式，以抓取、归置、抬放等关键语义事件作为基础预测单元，省去大量无关中间帧推演，使机器人复刻人类抓核心目标的思考模式。行业竞争新阶段：头部企业加速规模化商用竞争

可以看到，全球具身智能正处于从技术验证向规模化商用跨越的关键拐点。

TrendForce集邦咨询数据显示，2026年下半年全球人形机器人（886069）产业将进入商业化关键期，全年中国人形机器人（886069）产量预计同比增长94%。资本层面，2026年以来国内具身智能领域投资总额已超2025年全年，单笔10亿元以上融资达10起，资金从整机向全产业链渗透，上游零部件、中游具身大脑、下游RaaS(机器人即服务)平台均获大额注资。

头部企业也加速上市和商业化落地。宇树科技（300674）将于6月1日冲刺科创板“人形机器人（886069）第一股”，2025年实现营收17亿元、净利润6亿元；智元启动赴港IPO(首次公开募股)，并通过拆分战略半年内诞生两家独角兽。国际市场上，特斯拉（TSLA）Optimus Gen-3已在上海超级工厂部署量产；Figure AI则不间断直播3个机器人在200个小时累计分拣包裹突破24.9万件，接近人类熟练工的水平。

在激烈竞争中，自变量凭借独特的技术路线和资本优势跻身第一梯队。其“一轮一个巨头”的融资路径备受关注：A轮美团、A+轮阿里、A++轮字节、B轮小米与红杉，累计融资额超30亿元。同时自变量也联合58同城探索机器人上门做家务的落地场景。

“为什么能够吸引这些大厂投资？我很难给出一个行业通用性的回答。”自变量机器人创始人兼CEO(首席执行官)王潜此前在接受《每日经济新闻》记者采访时坦言，“所有这些投资人投我们的逻辑，其实非常简单，就是投技术上的领先性。这几家大厂也在做大模型，应该是全世界做大模型最好的几家公司之一，他们自己的技术判断力很强，他们需要投某种意义上的技术第一性、技术驱动的事情。”

展望未来，郭涛表示，具身智能行业已经呈现四大明确趋势：一是真实场景泛化能力成为核心竞争锚点，实验室演示型产品将逐步被淘汰；二是高质量多维度数据集与精细化处理体系构筑长期壁垒，直接决定模型迭代上限；三是AI(人工智能（885728）)大模型、机器人控制、多目传感、三维几何等多学科深度融合成为必然；四是商业化进程加速，应用场景从家用向工业、医疗等领域延伸，大厂自研团队与垂直技术企业的竞合将更加常态化。

王潜此前表示，当前具身机器人的硬件已基本成熟，核心瓶颈在数据和技术。“我们希望在2至3年里，实现物理世界的Aha Moment(顿悟时刻)，就像当年ChatGPT带来的变革一样。”在他看来，机器人进入家庭的速度将超出市场预期，具身智能的爆发点已近在眼前。

“逐帧时代”终结？自变量机器人全球首个“事件级预测能力”世界模型落地 具身智能加速规模化商用竞争

每日经济新闻

“逐帧时代”终结？自变量机器人全球首个“事件级预测能力”世界模型落地具身智能加速规模化商用竞争