【艺恩观察】数据墙倒计时2028：当互联网被「读完」之后

核心摘要

「人类知识的累积总和，已基本在AI训练中被耗尽——大体上去年就发生了。」2025年初，马斯克对媒体抛出这句判断。几乎同一时间，OpenAI的Sam Altman把问题换了个说法：真正的命题，是「如何从更少的数据中学到更多」。

两位行业领袖，指向同一堵墙——数据墙。这不是一句口号。经ICML 2024同行评审的Epoch AI研究测算：可用的人类公开文本存量约300万亿token；若按当前趋势，训练数据集规模将在2026至2032年间与之持平，中位数预测约在2028年。

也就是说，留给「靠堆量」这条老路的时间，可能只剩三年左右。

图1｜训练数据规模将在2028年前后撞上「数据墙」(对数刻度)

一把越张越大的剪刀

数据墙的紧迫，藏在一组增速对比里。Stanford HAI《2025 AI Index》记录：训练计算量每约5个月翻一倍，而数据集规模每约8个月翻一倍。算力比数据涨得更快，两条曲线张开成一把越来越大的剪刀——这意味着，约束正从「买得起多少卡」转向「喂得出多少优质数据」。

更糟的是，公开语料的「高质量」部分远小于总量。CommonCrawl约130万亿token、索引网络约510万亿token，但真正干净、可用的高质量语料只是其中一小块；Llama 3这类「过度训练」做法(约10倍)还会加速触顶。多轮训练能把有效存量放大3至15倍，却无法从根本上解决枯竭。

图2｜算力比数据涨得更快，数据正成为新的约束

艺恩观察

Scaling Law的边际收益正在放缓。当所有人都买得到相近的算力，真正拉开差距的，变成了「你用什么数据去喂这些算力」。数据，正在取代算力，成为新的稀缺资源。

撞墙之后：四条出路

行业并没有束手就擒。从公开讨论与研究综述看，大致有四条出路在同时推进。其一是合成数据——用模型生成数据反哺训练，被视为缓解数据墙的主路径；其二是多模态扩容——引入图像、视频、音频，可使训练数据规模约增3倍；其三是数据效率与策展——用更少但更优质的数据获得更强能力，催生「数据中心化AI」；其四是高质量与专家数据——当通用语料见顶，稀缺的专业、垂直、合规语料价值凸显。

图3｜撞墙之后，行业沿四条路径「向质量要增长」

这四条路并非互斥，而是叠加推进。但其中最具确定性的趋势，是合成数据的崛起。Gartner 预测：到2030年，合成数据占比将全面超越真实数据。配合2023至2030年约35.3%的复合年增速——这是各细分赛道中最快的一类供给——一个由算法「造」出来的数据时代，正在到来。

图4｜Gartner 预测：2030年合成数据将全面超越真实数据

对行业与投资者的含义

数据墙改变的，是整个产业的价值排序。过去，数据被当作模型的「附属品」——有了模型，数据自然会有；当公开语料见底，这个关系正在反转：未来是数据决定模型能走多远，而不是模型决定要什么数据。这是一次主客易位。

对模型公司：「不一定要更大的模型，而要更对的数据」会从口号变成预算分配的现实。合成数据管线、数据策展能力、与高质量语料供给方的长期绑定，将成为能力上限的决定项。

对数据供给方：稀缺的专业、合规、可溯源数据将获得结构性溢价；能稳定产出高质量合成数据与专家数据的玩家，处在价值链最陡峭的上半段。

对投资者：判断一家AI公司的长期竞争力，「数据供给的可持续性」会和「算力储备」一样，成为尽调清单上的硬指标。

合成数据是解药，也可能是新风险

把希望全部押在合成数据上，也需要一份清醒。学界已反复提示「模型坍缩」(model collapse)风险：当模型大量以自身生成的数据反哺训练，长期可能放大偏差、丢失分布尾部的稀有信息。Sam Altman那句反问——「如果训练模型的最佳方式是生成一千万亿token合成数据再喂回去，那会很奇怪」——正是这种警惕的体现。

因此更现实的路径，往往是「合成+真实精调」的混合配方：用合成数据解决规模与成本，用稀缺的真实、专家、合规数据校准质量与边界。这也是为什么，通用语料见顶之后，高质量人类数据不降反升地变贵——它成了校准合成数据的「锚」。

多模态扩容是另一条确定性较高的增量。引入图像、视频、音频可使训练数据规模约增3倍；而真正的前沿——视频生成与世界模型——对「高质量、合法授权、富标注」语料的渴求，使多模态成为整个数据市场中最稀缺、单位价值最高的一层。视频生成领域的研究已明确指出，模型严重依赖同时具备高视觉质量与高运动质量的「黄金数据」，而这类数据稀少且获取昂贵。

具身智能则把稀缺推向极致。世界模型面临「配对多视角数据严重稀缺」，具身数据「稀缺、采集困难、高维」，被视为机器人达到「GPT时刻」的关键瓶颈；中国头部具身公司已开始用合成引擎叠加真机精调来填补缺口。无论文本、视频还是具身，主线都一样：增量正从「量」转向「质」。

「数据效率」是另一条隐秘主战场

除了开源新数据，把已有数据「用得更省、更巧」同样关键。「数据中心化AI」(data-centric AI)主张：在模型架构相对固定的前提下，通过更精细的数据策展、去重、配比与课程式训练，用更少但更优质的数据获得更强能力。多轮训练可把有效存量放大3至15倍，正是这一思路的朴素版本。

这对中国厂商尤其重要。在算力相对受限的约束下，「向数据效率要性能」可能比「堆更多卡」更现实；围绕中文、垂类、合规场景做精细数据工程，反而可能成为差异化优势。数据墙之下，效率本身就是一种稀缺能力，也是一道更难被资金简单复制的壁垒。

对中国市场而言，数据墙的另一面是机遇。中文高质量语料、垂类专业数据、合规可溯源数据，恰恰是通用英文语料见顶后最稀缺的补充；而国家「数据要素（886041）」战略提供的制度供给，又为这类数据的规模化生产与流通铺好了轨道。撞墙之处，往往也是新路的起点。

数据墙不是AI的终点，而是数据产业真正价值化的起点。读懂2028这个时间窗，才能在算力叙事之外，看清下一轮竞争真正的胜负手。