【艺恩观察】数据墙倒计时2028:当互联网被「读完」之后

2026-06-22 13:37:56
作者:艺恩数据
分享
AIME

问财摘要

1、人类知识的总和已基本在AI训练中被耗尽,训练数据规模将在2028年前后撞上「数据墙」。算力比数据涨得更快,数据正成为新的约束。 2、Scaling Law的边际收益正在放缓,真正拉开差距的,变成了「你用什么数据去喂这些算力」。数据,正在取代算力,成为新的稀缺资源。 3、有四条路径在同时推进:合成数据、多模态扩容、数据效率与策展、高质量与专家数据。对行业与投资者的含义是,「数据供给的可持续性」会和「算力储备」一样,成为尽调清单上的硬指标。 4、数据墙不是AI的终点,而是数据产业真正价值化的起点。
免责声明 内容由AI生成
文章提及标的
数据要素--

核心摘要

「人类知识的累积总和,已基本在AI训练中被耗尽——大体上去年就发生了。」2025年初,马斯克对媒体抛出这句判断。几乎同一时间,OpenAI的Sam Altman把问题换了个说法:真正的命题,是「如何从更少的数据中学到更多」。

两位行业领袖,指向同一堵墙——数据墙。这不是一句口号。经ICML 2024同行评审的Epoch AI研究测算:可用的人类公开文本存量约300万亿token;若按当前趋势,训练数据集规模将在2026至2032年间与之持平,中位数预测约在2028年。

也就是说,留给「靠堆量」这条老路的时间,可能只剩三年左右。

图1|训练数据规模将在2028年前后撞上「数据墙」(对数刻度)

一把越张越大的剪刀

数据墙的紧迫,藏在一组增速对比里。Stanford HAI《2025 AI Index》记录:训练计算量每约5个月翻一倍,而数据集规模每约8个月翻一倍。算力比数据涨得更快,两条曲线张开成一把越来越大的剪刀——这意味着,约束正从「买得起多少卡」转向「喂得出多少优质数据」。

更糟的是,公开语料的「高质量」部分远小于总量。CommonCrawl约130万亿token、索引网络约510万亿token,但真正干净、可用的高质量语料只是其中一小块;Llama 3这类「过度训练」做法(约10倍)还会加速触顶。多轮训练能把有效存量放大3至15倍,却无法从根本上解决枯竭。

图2|算力比数据涨得更快,数据正成为新的约束

艺恩观察

Scaling Law的边际收益正在放缓。当所有人都买得到相近的算力,真正拉开差距的,变成了「你用什么数据去喂这些算力」。数据,正在取代算力,成为新的稀缺资源。

撞墙之后:四条出路

行业并没有束手就擒。从公开讨论与研究综述看,大致有四条出路在同时推进。其一是合成数据——用模型生成数据反哺训练,被视为缓解数据墙的主路径;其二是多模态扩容——引入图像、视频、音频,可使训练数据规模约增3倍;其三是数据效率与策展——用更少但更优质的数据获得更强能力,催生「数据中心化AI」;其四是高质量与专家数据——当通用语料见顶,稀缺的专业、垂直、合规语料价值凸显。

图3|撞墙之后,行业沿四条路径「向质量要增长」

这四条路并非互斥,而是叠加推进。但其中最具确定性的趋势,是合成数据的崛起。Gartner 预测:到2030年,合成数据占比将全面超越真实数据。配合2023至2030年约35.3%的复合年增速——这是各细分赛道中最快的一类供给——一个由算法「造」出来的数据时代,正在到来。

图4|Gartner 预测:2030年合成数据将全面超越真实数据

对行业与投资者的含义

数据墙改变的,是整个产业的价值排序。过去,数据被当作模型的「附属品」——有了模型,数据自然会有;当公开语料见底,这个关系正在反转:未来是数据决定模型能走多远,而不是模型决定要什么数据。这是一次主客易位。

对模型公司:「不一定要更大的模型,而要更对的数据」会从口号变成预算分配的现实。合成数据管线、数据策展能力、与高质量语料供给方的长期绑定,将成为能力上限的决定项。

对数据供给方:稀缺的专业、合规、可溯源数据将获得结构性溢价;能稳定产出高质量合成数据与专家数据的玩家,处在价值链最陡峭的上半段。

对投资者:判断一家AI公司的长期竞争力,「数据供给的可持续性」会和「算力储备」一样,成为尽调清单上的硬指标。

合成数据是解药,也可能是新风险

把希望全部押在合成数据上,也需要一份清醒。学界已反复提示「模型坍缩」(model collapse)风险:当模型大量以自身生成的数据反哺训练,长期可能放大偏差、丢失分布尾部的稀有信息。Sam Altman那句反问——「如果训练模型的最佳方式是生成一千万亿token合成数据再喂回去,那会很奇怪」——正是这种警惕的体现。

因此更现实的路径,往往是「合成+真实精调」的混合配方:用合成数据解决规模与成本,用稀缺的真实、专家、合规数据校准质量与边界。这也是为什么,通用语料见顶之后,高质量人类数据不降反升地变贵——它成了校准合成数据的「锚」。

多模态扩容是另一条确定性较高的增量。引入图像、视频、音频可使训练数据规模约增3倍;而真正的前沿——视频生成与世界模型——对「高质量、合法授权、富标注」语料的渴求,使多模态成为整个数据市场中最稀缺、单位价值最高的一层。视频生成领域的研究已明确指出,模型严重依赖同时具备高视觉质量与高运动质量的「黄金数据」,而这类数据稀少且获取昂贵。

具身智能则把稀缺推向极致。世界模型面临「配对多视角数据严重稀缺」,具身数据「稀缺、采集困难、高维」,被视为机器人达到「GPT时刻」的关键瓶颈;中国头部具身公司已开始用合成引擎叠加真机精调来填补缺口。无论文本、视频还是具身,主线都一样:增量正从「量」转向「质」。

「数据效率」是另一条隐秘主战场

除了开源新数据,把已有数据「用得更省、更巧」同样关键。「数据中心化AI」(data-centric AI)主张:在模型架构相对固定的前提下,通过更精细的数据策展、去重、配比与课程式训练,用更少但更优质的数据获得更强能力。多轮训练可把有效存量放大3至15倍,正是这一思路的朴素版本。

这对中国厂商尤其重要。在算力相对受限的约束下,「向数据效率要性能」可能比「堆更多卡」更现实;围绕中文、垂类、合规场景做精细数据工程,反而可能成为差异化优势。数据墙之下,效率本身就是一种稀缺能力,也是一道更难被资金简单复制的壁垒。

对中国市场而言,数据墙的另一面是机遇。中文高质量语料、垂类专业数据、合规可溯源数据,恰恰是通用英文语料见顶后最稀缺的补充;而国家「数据要素(886041)」战略提供的制度供给,又为这类数据的规模化生产与流通铺好了轨道。撞墙之处,往往也是新路的起点。

数据墙不是AI的终点,而是数据产业真正价值化的起点。读懂2028这个时间窗,才能在算力叙事之外,看清下一轮竞争真正的胜负手。

免责声明:风险提示:本文内容仅供参考,不代表同花顺观点。同花顺各类信息服务基于人工智能算法,如有出入请以证监会指定上市公司信息披露平台为准。如有投资者据此操作,风险自担,同花顺对此不承担任何责任。
homeBack返回首页
不良信息举报与个人信息保护咨询专线:10100571违法和不良信息涉企侵权举报涉算法推荐举报专区涉青少年不良信息举报专区

浙江同花顺互联信息技术有限公司版权所有

网站备案号:浙ICP备18032105号
证券投资咨询服务提供:浙江同花顺云软件有限公司 (中国证监会核发证书编号:ZX0050)
AIME
举报举报
反馈反馈