智源研究院:世界模型引领人工智能新的范式变革

2026-06-12 22:13:13
分享
AIME

问财摘要

1、智源研究院在第八届北京智源大会上提出,世界模型是面向真实物理世界的下一代基座模型,代表着人工智能的下一个重要范式跃迁。通过对现有世界模型技术的梳理,智源研究院将当前世界模型相关的技术路线分为四大类。 2、今年,智源大会发布了悟界·Brainμ1.0和悟界·Physis-v0.1两项创新成果。
免责声明 内容由AI生成
文章提及标的
人工智能--

在6月12日举行的第八届北京智源大会上,智源研究院提出,世界模型是面向真实物理世界的下一代基座模型,以“预测下一物理状态”为核心,代表着人工智能(885728)的下一个重要范式跃迁。

北京智源人工智能(885728)研究院院长王仲远认为,当下,人工智能(885728)正沿着从大语言模型向多模态大模型再向世界模型演进的方向,加速从数字世界迈向物理世界。随着多模态模型的研究深入,人工智能(885728)正经历一场重大的范式变革,正在从“预测下一个词元”演进到“预测下一个物理状态”,这是世界模型的核心本质。

王仲远还表示,世界模型不仅能感知、理解、推理真实物理世界的时间、空间、物理规律和物理常识,同时能涵盖文本、视频、深度、力觉、感知等全模态数据,还具备主动交互能力,能够支撑各种物理世界的下游应用。“随着大语言与多模态技术日趋成熟,未来人工智能(885728)的发展重心将进入世界模型时代。”

通过对现有世界模型技术的梳理,智源研究院将当前世界模型相关的技术路线分为四大类:第一类是以语言为中心的世界模型,包括VLM(视觉语言大模型)、VLA(视觉-语言-动作模型),模型在文本空间中预测下一个词,学到的是语言描述的世界,并不能理解背后的物理后果;第二类是以像素为中心的世界模型,像Sora和Seedance等视频生成类模型,在视觉空间中学习视频或图像,学到的是像素描述的世界;第三类是以三维结构为中心的世界模型,不过模型重建3D空间不等于理解世界,几何结构也不代表物理状态;第四类是以视觉表征为中心的世界模型,预测的是视觉表征的压缩,但视觉嵌入演化不等于物理规律演化。

智源研究院认为,这四类模型距离真正“面向物理世界的基座模型”仍有距离,当前行业对世界模型的探索仍处于早期阶段,数据标准与评测框架尚未统一,依然需要开展大量的科研探索工作。

今年,智源大会也带来了一系列创新成果发布。其中,悟界·Brainμ1.0是理解与生成统一的多模态神经科学大模型,将Next-Token Prediction(“预测下一个词元”)范式扩展到神经科学领域所构建的多模态脑科学通用基座,由智源联合清华团队基于悟界·Brainμ开展的研究成果也已刊发于Science期刊。悟界·Physis-v0.1是通用世界基座模型,以统一物理状态学习,实现物理正确、动作因果可溯、长程一致、通用泛化,最终达到全垂类场景应用。

据介绍,自2018年成立以来,智源研究院先后发布了“悟道”系列大模型和“悟界”系列大模型,构建了自底向上的全栈大模型开源技术体系。截至目前,智源开源模型超200个,全球总下载量累计超过10亿次。同时也孵化了一系列在大模型领域和具身智能领域具有代表性的创新创业企业。

免责声明:风险提示:本文内容仅供参考,不代表同花顺观点。同花顺各类信息服务基于人工智能算法,如有出入请以证监会指定上市公司信息披露平台为准。如有投资者据此操作,风险自担,同花顺对此不承担任何责任。
homeBack返回首页
不良信息举报与个人信息保护咨询专线:10100571违法和不良信息涉企侵权举报涉算法推荐举报专区涉青少年不良信息举报专区

浙江同花顺互联信息技术有限公司版权所有

网站备案号:浙ICP备18032105号
证券投资咨询服务提供:浙江同花顺云软件有限公司 (中国证监会核发证书编号:ZX0050)
AIME
举报举报
反馈反馈