【大河财立方记者李雯雯】6月8日,国家数据局印发《关于推进行业高质量数据集建设行动的实施方案》(以下简称《实施方案》)。这也是国家层面首次对数据赋能人工智能(885728)发展作出的系统性部署。
《实施方案》提出,到2028年底,建成一批覆盖重点领域、经过应用验证的行业高质量数据集,打造一批数据驱动人工智能(885728)创新发展的典型应用场景,培育一批具备领先优势的创新型数据企业和专业人才,形成一批行业高质量数据集建设工具和标准。赋能AI产业发展为何必须夯实高质量数据底座?《实施方案》将为行业带来哪些变革与红利?大河财立方记者就此采访了多位业内专家。
创新标准范式夯实高质量数据底座
“此次印发的高质量数据集建设方案,是从数据供给侧支撑AI产业升级的核心政策。”北京社科院副研究员王鹏接受大河财立方记者采访时表示,不同于以往通用型数据治理政策,该方案首次锚定AI全生命周期(883436)需求,覆盖预训练、强化学习、具身智能、世界模型等前沿应用场景,直击大模型产业化、企业数字化转型核心痛点,为AI技术创造落地条件。
行业高质量数据集是经过采集、加工等数据处理,可直接用于开发和训练人工智能(885728)模型,能有效提升模型性能的行业数据的集合,包含行业通识和行业专识两大类别,是推动“人工智能(885728)+”赋能千行百业、实现产业落地的基础性、关键性资源。
《实施方案》围绕高质量数据集供给、流通、应用等关键环节,部署强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六个专项行动,推动数据集建设推广与“人工智能(885728)+”同频共振、互促共进,强化数据赋能人工智能(885728)创新发展。
中电(郑州)数据产业有限公司副总经理郭红刚表示,过去的数据治理强调完整性、一致性、安全性,而本方案首次提出“AI-Ready”标准,要求数据集在结构完整性、标注准确性、多模态支持、模型适配性以及应用验证闭环等方面全面达标,真正服务于大模型训练与推理。同时,方案提出探索以词元(Token)为基础的价值体系。“将数据价值度量单位与算力计价逻辑对齐,这为数据资产化提供了全新的技术经济范式。”
高质量数据赋能产业与企业双向升级
业内人士认为,《实施方案》落地后,将从大模型产业发展、数据产业生态构建,以及企业数字化转型等多维度释放政策红利,带动行业整体升级。
王鹏表示,对大模型产业而言,适配多模态、垂直领域及前沿应用场景的高质量数据集,能够有效弥补大模型预训练的数据源缺口,破解大模型行业普遍存在的“数据荒”问题,助力企业快速打造细分行业模型。同时,《实施方案》推动商业模式从单一的基础数据包销售,向API调用、模型化解决方案及全栈服务升级,全新的商业模式将推动数据服务商、AI企业、传统产业形成协作链条,构建良性的AI产业生态。
在企业数字化转型方面,郭红刚认为,《实施方案》明确支持数据集入表、质押融资、作价入股、数据信托和资产证券化,为企业推进数字化提供了强有力的政策背书,数据部门有望从成本中心转向价值创造中心。他表示,为了达到AI-Ready标准,企业需要补齐主数据管理、元数据管理、数据质量检核等短板,有助于反向提升ERP、BI等传统数字化应用的底层数据质量,倒逼存量数据治理能力“补课”。
疏通产业发展堵点健全数据与AI融合生态
当前我国高质量数据集的建设规模持续扩容。数据显示,截至今年一季度,全国已建成高质量数据集超过11.6万个,总体量超过960PB。
但数据体量持续增长的同时,行业发展短板依旧突出。郑州数据交易中心负责人表示,当前,高质量数据集供给不足、流通不畅,已然成为制约数据要素(886041)流通、AI产业迭代及数字经济(885976)提质增效的核心堵点,加快行业高质量数据集建设迫在眉睫。
为打通数据赋能人工智能(885728)创新发展堵点,今年4月,工业和信息化部、国家数据局联合印发《关于联合实施2026年“模数共振”行动的通知》,推动人工智能(885728)模型与数据资源协同互促、同频共振,并提出到2026年底,基本形成“数据-模型-场景应用”良性互促的循环,推动人工智能(885728)高水平赋能新型工业化(886057)。
同期,国家数据集管理服务平台正式发布并启动试运行,提供覆盖数据集全生命周期(883436)的公共服务能力。截至目前,平台已认证机构533家,发布数据集1400个,覆盖农业、工业制造、交通等重点领域。
多项国家级配套举措接连落地,也为区域数据要素(886041)市场推动数据流转、服务AI产业提供清晰行动指引。郑州数据交易中心负责人表示,作为区域数据要素(886041)流通核心平台,中心将严守合规底线,依托隐私计算、区块链(885757)等技术筑牢数据安全(885942)屏障,统一行业数据交易标准、保障交易安全规范;同时积极探索词元计价等新型数据交易模式,持续培育数据付费市场化理念,真正推动高质量数据集落地应用、释放核心价值,助力数据与AI深度融合发展。
