在6月12日举行的第八届北京智源大会上,智源研究院提出,世界模型是面向真实物理世界的下一代基座模型,以“预测下一物理状态”为核心,代表着人工智能(885728)的下一个重要范式跃迁。
北京智源人工智能(885728)研究院院长王仲远认为,当下,人工智能(885728)正沿着从大语言模型向多模态大模型再向世界模型演进的方向,加速从数字世界迈向物理世界。随着多模态模型的研究深入,人工智能(885728)正经历一场重大的范式变革,正在从“预测下一个词元”演进到“预测下一个物理状态”,这是世界模型的核心本质。
王仲远还表示,世界模型不仅能感知、理解、推理真实物理世界的时间、空间、物理规律和物理常识,同时能涵盖文本、视频、深度、力觉、感知等全模态数据,还具备主动交互能力,能够支撑各种物理世界的下游应用。“随着大语言与多模态技术日趋成熟,未来人工智能(885728)的发展重心将进入世界模型时代。”
通过对现有世界模型技术的梳理,智源研究院将当前世界模型相关的技术路线分为四大类:第一类是以语言为中心的世界模型,包括VLM(视觉语言大模型)、VLA(视觉-语言-动作模型),模型在文本空间中预测下一个词,学到的是语言描述的世界,并不能理解背后的物理后果;第二类是以像素为中心的世界模型,像Sora和Seedance等视频生成类模型,在视觉空间中学习视频或图像,学到的是像素描述的世界;第三类是以三维结构为中心的世界模型,不过模型重建3D空间不等于理解世界,几何结构也不代表物理状态;第四类是以视觉表征为中心的世界模型,预测的是视觉表征的压缩,但视觉嵌入演化不等于物理规律演化。
智源研究院认为,这四类模型距离真正“面向物理世界的基座模型”仍有距离,当前行业对世界模型的探索仍处于早期阶段,数据标准与评测框架尚未统一,依然需要开展大量的科研探索工作。
今年,智源大会也带来了一系列创新成果发布。其中,悟界·Brainμ1.0是理解与生成统一的多模态神经科学大模型,将Next-Token Prediction(“预测下一个词元”)范式扩展到神经科学领域所构建的多模态脑科学通用基座,由智源联合清华团队基于悟界·Brainμ开展的研究成果也已刊发于Science期刊。悟界·Physis-v0.1是通用世界基座模型,以统一物理状态学习,实现物理正确、动作因果可溯、长程一致、通用泛化,最终达到全垂类场景应用。
据介绍,自2018年成立以来,智源研究院先后发布了“悟道”系列大模型和“悟界”系列大模型,构建了自底向上的全栈大模型开源技术体系。截至目前,智源开源模型超200个,全球总下载量累计超过10亿次。同时也孵化了一系列在大模型领域和具身智能领域具有代表性的创新创业企业。
