国家数据局5月31日消息,国家数据局局长刘烈宏日前在2026世界智能产业博览会上表示,高质量数据集是具身智能“感知-决策-执行”的重要基础,要以完善的数据工程驱动具身智能的发展,深入开展系统性实践。
今年以来,高质量数据集领域政策动态颇多,围绕高质量数据集的产业生态正在成型。专家表示,高质量数据集建设已逐步从“倡导建设”迈向“按标准建设、按机制试点、按体系推进”,产业发展有望进一步提速。
以产业应用牵引数据供给
“2026年是‘数据要素(886041)价值释放年’,国家数据局将推出《关于推进行业高质量数据集建设行动的实施方案》,围绕强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六大行动,聚焦人工智能(885728)赋能产业发展需求,以产业应用牵引数据供给、以数据驱动产业智能发展,推动各行各业‘数据飞轮’更好转起来。”刘烈宏说。
围绕数据赋能人工智能(885728)创新发展,刘烈宏表示,高质量数据集是先进制造(883433)业智能化升级的基础资源和创新引擎(399050)。要把真实产线、设备运行和质量检测等数据系统采集、治理和利用起来,更好支撑行业大模型和智能体理解工业机理、适配工业场景、优化工(850102)业流程。要加大行业高质量数据集的投入,推动模数共振,促进数据、模型、装备、场景深度融合。
高质量数据集是具身智能“感知-决策-执行”的重要基础。刘烈宏表示,具身智能在真实环境中的自主适应与任务执行能力,依托视觉、触觉、音频等高质量、多模态训练数据,要以完善的数据工程驱动具身智能的发展,深入开展系统性实践。
高质量数据集是AI for Science加速发展的关键支撑。刘烈宏表示,科学研究对数据准确性、规范性、可信性要求更高,高质量数据集不仅是支撑科学领域模型训练、规律发现和成果验证的基础底座,更是推动基础研究走向产业应用、实现AI for Science真正落地的关键支撑。
今年以来,高质量数据集领域新动向颇多。4月15日,国家数据局发布《关于推进行业高质量数据集建设行动的实施方案(征求意见稿)》,向社会公开征求意见。工业和信息化部、国家数据局近期联合印发《关于联合实施2026年“模数共振”行动的通知》,推动人工智能(885728)模型与数据资源协同互促、同频共振,并提出到2026年底,基本形成“数据-模型-场景应用”良性互促的循环,推动人工智能(885728)高水平赋能新型工业化(886057)。
行业平台层面,4月29日,国家数据集管理服务平台发布并启动试运行,提供覆盖数据集全生命周期(883436)的公共服务能力。截至5月31日,已认证机构516家,发布数据集1350个,覆盖农业、工业制造、交通、文旅等重点领域。
截至今年一季度,全国已建成高质量数据集超过11.6万个,总体量超过960PB。截至今年3月,我国日均词元(Token)调用量已超过140万亿。
多地部署高质量数据集建设
今年以来,多地积极响应,提出建设高质量数据集。
山东省大数据局印发的《山东省行业高质量数据集建设专项行动方案》显示,到2026年年底,在工业制造、交通运输等16个重点行业领域分别建成2个左右专业化数据集;到2027年年底,累计建成50个高质量数据集,并提出加强公共数据供给、加快企业数据开发、加强数据供需对接、发展数据标注产业等具体要求。此外,为深入贯彻国家关于国有企业数据效能提升的有关部署,广东省政务服务和数据管理局联合广东省国资委日前正式启动广东省国企高质量数据质效提升行动。
长江证券(000783)计算机行业首席分析师宗建树表示,当前,我国大模型产业持续高速发展,数据集作为训练和优化大模型的基础资源,其质量和多样性直接影响到大模型的性能和效果。高质量数据集作为人工智能(885728)产业化落地的关键生产资料,有望成为连接行业场景、模型训练、智能体应用和数据价值释放的核心枢纽。高质量数据集建设已逐步从“倡导建设”迈向“按标准建设、按机制试点、按体系推进”,产业发展有望进一步提速。
计世资讯研究报告认为,高质量数据集的规模化建设,将进一步带动高质量行业数据集构建与服务、行业知识图谱与智能体知识库、合成数据生成与数据隐私保护平台三个百亿级软件细分赛道的快速增长,为我国软件产业发展注入新的增长动力。
