核心摘要
当公开文本语料逐渐被「读完」,资本与模型的目光,几乎同时转向了同一个地方——视频。进入2026年,竞争前沿从文本转向视频与多模态;视频生成与世界模型对「高质量、合法授权、富标注」语料的渴求,使这一层成为整个数据市场中最稀缺、单位价值最高的部分。视频数据,正在成为大模型时代的「硬通货」。
为什么偏偏是视频?因为它同时满足三个苛刻条件:信息密度最高,一帧画面顶得上千言文字;获取与标注最难,既要画面又要运动、还要语义;并且与世界模型、具身智能的下一波浪潮强绑定。当通用文本的边际价值随枯竭而下降,价值链的重心,正不可逆地向上迁移。
它,位于价值链最顶端
把数据价值链拆成八层就会发现,多模态(图像/视频/4D)位于第八层——最稀缺、溢价最高;专家/领域数据次之。一个朴素的规律贯穿始终:越靠近「专家级、多模态、可验证」的一端,单位价值越高、可复制性越低。当通用网络语料见顶,价值链上半部的稀缺溢价会持续抬升。
图1|八层价值链中,多模态(视频/4D)位于溢价最高的顶端
这条排序解释了一个反直觉的现象:当所有人都能爬到公开文本,真正稀缺的,是那些「爬不到、买不到、必须专门生产」的数据。而视频——尤其是高质量、富标注、合规授权的视频——正是其中最典型的一类。它更像「手工奢侈品」,而非可以无限复制的「大宗商品」。
艺恩观察
在数据价值链上,越往顶端走,数据就越像「定制品」而非「标准件」。视频与4D数据之所以贵,不是因为稀有本身,而是因为它直接决定了视频生成与世界模型的能力上限——而这,恰恰是当下竞争最激烈的战场。
数视频生成,已是白热化战场
字节跳动Seedance 2.0、阿里HappyHorse、OpenAI Sora 2、Google Veo 3.1、快手可灵Kling 3.0、生数Vidu Q3、海螺(MiniMax)Hailuo 2.3、Runway Gen-4.5同台竞技,视频生成赛道进入白热化——其中字节跳动Seedance 2.0(即梦/豆包)与阿里HappyHorse已在Artificial Analysis视频竞技场登顶。值得严谨说明的是:Google已确认使用YouTube视频的一个子集训练其AI模型(含Veo 3.1),但官方并未将4K、原生音频等能力直接归因于此;各家具体训练数据来源也多未完全披露——这恰恰从反面印证了独家、合规、高质量视频语料的决定性价值。
图 2|视频生成赛道白热化,中美玩家同台竞技(示意定位)
训练数据来源之所以讳莫如深,是因为它同时牵动能力与法律风险两端。谁拥有独家、干净、可授权的视频库,谁就同时握住了「能力上限」与「合规底线」两张王牌。换句话说,视频模型的竞争,表面比的是算法,底层拼的是数据。
从财务视角看,这场竞争正在改变成本结构:过去模型公司的钱主要砸向算力,如今越来越多预算流向「拿到对的视频数据」——无论是自建采集、付费授权,还是与数据公司共建。视频数据,正从成本表里一个不起眼的条目,变成决定产品力的战略投入。
真正稀缺的,是「黄金数据」
视频数据并非越多越好。可灵团队的论文明确指出:视频生成严重依赖同时具备高视觉质量(VQ)与高运动质量(MQ)的「黄金数据」;此类数据集稀少且获取昂贵,是规模化的主要限制。
图3|层层筛选后,真正能训练视频模型的「黄金数据」所剩无几
这个漏斗很残酷:海量原始视频里,画面清晰的只是一部分;同时具备高运动质量、镜头语言完整、标注完备、且权利清晰的「黄金数据」,更是凤毛麟角。这意味着,视频数据的竞争,不是比「谁的库更大」,而是比「谁的黄金数据更多、更干净、更可授权」。
供给侧的答案:合规的视频资产
面对这道难题,供给侧需要的不是「更多视频」,而是「对的视频」。以艺恩Video Feeds为例,它以「影视综+社媒+电商」累积全球级视频资产,配套元数据Schema与多任务标签,为视频生成、理解、世界模型与VLA训练提供持续、合规的数据流:2.3B+视频片段沉淀、800TB+日均交付带宽、120+任务族覆盖。
图4|面向视频原生AI与具身智能的合规视频资产(艺恩Video Feeds)
这类供给的价值,不在「量大」,而在三件事同时成立:富标注(可直接训练)、合规授权(敢用、能过审)、垂类深度(影视综等高价值场景)。这正是「黄金数据」在产业侧的落地形态——把抽象的稀缺,变成可交付、可溯源、可定价的资产。
视频之后,是4D与世界模型
视频还不是终点。再往前一步,是4D/多视角空间数据与世界模型。世界模型(NVIDIA 定义:理解真实世界动态、含物理与空间属性的生成式AI)面临「配对多视角数据严重稀缺」——它不仅要看懂画面,还要理解物理与空间。视频数据,是通往世界模型的「前置燃料」;而4D数据,则是更高阶、更稀缺的下一层。
这也意味着,今天在视频数据上的卡位,本质是在为世界模型与具身智能的下一轮竞争「囤粮」。谁的视频资产更结构化、更富标注、更接近真实物理,谁就更容易把它升级为4D与具身训练所需的高维数据——视频,因此既是当下的硬通货,也是未来的入场券。
当然,也要避免把「拥有视频」直接等同于「拥有黄金数据」。原始视频与可训练数据之间,隔着采集、清洗、标注、合规审计与场景化定制的全链路;真正的壁垒不在库的大小,而在这条「炼金」链路的深度与合规度。
对行业与投资者的含义
对模型公司:视频与多模态数据的获取能力,将成为下一阶段能力竞赛的胜负手;与拥有独家、合规视频库的供给方建立长期绑定,可能比单纯堆算力更具杠杆。
对数据供给方:谁能稳定产出富标注、合规、垂类的视频「黄金数据」,谁就握住了这一层的定价权;反之,只靠规模、缺乏标注与授权的视频库,会迅速贬值。
对投资者:判断一家数据公司的长期价值,要看它在「视频/多模态×合规×垂类」象限的卡位,以及把原始视频「炼」成黄金数据的工程能力。
当文本红利见顶,视频正从「内容」变成「资产」,从「素材」变成「硬通货」。这场价值迁移才刚刚开始——而最先把视频做成合规、可训练资产的玩家,会最早收到这桶金。
