【行业资讯】赛迪研究院发布《2025高质量数据集研究报告》:高质量数据建设进入新阶段
数据已超越传统生产要素,成为驱动人工智能技术突破与产业变革的核心动力,而高质量数据是提升大模型准确性、适应性泛化能力的核心。高质量数据集不仅是人工智能模型性能跃升的基石,更重塑了从技术研发到商业落地的全产业链条。其中数据标注与清洗是高质量数据集建设的关键环节。
2025数据安全发展大会在温州召开,国家数据局党组书记、局长刘烈宏出席并致辞。会上,由中国电子信息产业发展研究院(赛迪研究院)发布的《2025高质量数据集研究报告》显示,随着人工智能、大模型技术迭代,高质量数据建设进入规模化、规范化发展新阶段。
赛迪研究院党委书记、副院长刘文强表示,作为人工智能模型训练与应用的基石,高质量数据集对于人工智能技术创新、产业升级和社会进步意义十分重大,是当前数字经济建设的时代课题。国家数据局统筹推进了全国七个数据标注基地建设,构建医疗、工业、教育等领域高质量数据集。
面向高质量数据集建设的各流程环节,刘文强建议从以下五个方面发力:
一是强化数据获取与共享,探索行业试点联合推进共建新模式。二是加强数据质量源头发力,推动数据标注产业高质量发展。三是完善质量与标准体系,推动建设重点行业数据集评价标准。四是优化数据集运营模式,推动数据资源价值生态循环落地。五是加强数据隐私与安全保障,推动数据集安全评估能力建设。
报告显示,当前我国正加速推动高质量数据集创新发展,但是仍然面临数据存量小产量低、数据集质量良莠不齐、缺乏主流高价值数据引领、数据利用效率低等问题。
刘文强表示,建议从以下三方面进行改进:
一是在数据汇聚与共享方面,数据存量小产量低,数据集汇聚共享效率有待加强。二是在数据供给与质量方面数据集质量良莠不齐,缺乏主流高价值数据引领。三是数据挖掘与利用方面存在算法偏见,加剧数据遗失,数据要素价值挖掘不足。
0人