2025 自动驾驶数据标注企业 TOP10 榜单揭晓,它们领先的秘诀在哪里
《中商产业研究院》的一份报告预测,2025 年, 中国自动驾驶市场规模将接近 4500 亿元, 自动驾驶技术的发展, 需要海量、高质量的数据支撑, 这些数据经过清洗和标注, 才能成为机器可识别的训练数据。数据标注行业, 无疑是 AI 时代的新基建行业。
感知、决策、执行, 是自动驾驶的核心技术体系, 其中, 数据标注在车身感知、环境感知都扮演了重要角色。IDC 预计,2025 年, 中国人工智能数据采集、标注服务市场规模将达到 123.4 亿元, 自动驾驶是需求巨大且增长迅速的一个领域。
进入 2025 年, 自动驾驶标注市场迎来变革的契机。
一是 AI 技术发展带来的自动化升级, 可能会让这个劳动密集型的行业升级换代, 另外, 主机厂激增的复杂需求, 也让那些优秀公司更容易实现身位的领先。
2025 年, 创业邦首次启动自动驾驶数据标注的榜单评选, 旨在挖掘这一新兴行业在这一轮变革中的创新力量。
行业需要效率变革,AI 被给予厚望
2022 年, 是 AI 爆发的元年, 也是自动驾驶爆发的元年。以人工标注为主的数据标注市场, 将迎来一次大变革。
推动自动驾驶数据标注变革的最直接原因, 是车载激光雷达在智能汽车的广泛应用。作为自动驾驶“眼睛”的激光雷达传感器精度更高, 产生的数据更大、更复杂。比如激光雷达生成的是三维点云数据, 相比二维图像, 点云数据更复杂, 标注时需要处理空间中的点集。此外, 激光雷达的数据是连续性的, 需要跨帧标注, 种种原因, 使得自动驾驶场景数据标注的需求量呈几何倍增长。
与此同时, 自动驾驶的端到端技术革命正在掀起。无论是蔚小理等造车新势力, 还是大众等传统车企, 亦或是华为, 都在逐步引进端到端技术, 将自动驾驶的规则导向彻底转变成了数据导向。
以特斯拉 FSD 为例, 特斯拉 FSD 每天从车队中收集的数据量高达 PB 级 (1PB = 1024TB)。数据处理成为自动驾驶流程中的重中之重。特斯拉前 AI 高级总监 Andrej Karpathy 曾表示, 特斯拉自动驾驶部门将 3/4 的精力用在采集、清洗、分类、标注高质量的数据上面, 只有 1/4 的用于算法探索和模型创建。
特斯拉在 2023 年将 FSD 代码量削减 99%, 让大模型更加依赖大数据“喂养”。但大模型本身存在难以解释的“黑盒效应”。因此, 只能投喂更多的高质量数据, 来尽可能修正错误与幻觉。
这对数据集的量级和传感模态都提出扩充需求。大量数据的需求, 成为了数据标注行业变革的催化剂, 原先“人海战术”式的数据标注难以应对这样的规模。
AI 预标注的介入, 成为数据标注企业的新质生产力。数据标注企业开始形成人机协同的智能化标注平台, 行业内也开始进行自动化标注的探索。
尽管行业内对自动标注概念的意见不一, 但在自动驾驶爆发元年的 2022 年, 各家数据标注企业开始发力智能平台的布局。
以曼孚科技为例, 曼孚科技推出的第三代 MindFlow SEED (下称“SEED 平台”) 通过引入驾驶数据建立 RLHF (人类反馈强化学习)。在 RLHF 的帮助下,AI 能快速掌握了人类经验。基于深度学习与计算机视觉构建大模型, 曼孚科技可实现复杂场景下数据的高效处理与全自动化标注。
基于积累的海量数据(603138)与标注经验, 曼孚科技综合运用业界领先的模型结构, 形成一套从数据预处理、算法推断到结果精修的完整算法链路, 匹配不同应用场景。其中, 典型场景效率可提升 10 倍以上, 精准度达到 99.99% 以上。
强者恒强, 飞轮效应加剧格局调整
当前, 汽车市场竞争激烈, 主机厂大力推动智能驾驶技术的普及应用, 让更多消费者能以更低的成本享受到智能驾驶功能。因此, 自动驾驶业务有几大特点。
一个体量大, 一些大厂在大力推动自动驾驶的普及化, 因此需求体量很大; 第二, 主机厂竞争激烈, 要求在极短的周期交付; 另外, 主机厂多短平快的项目越来越多。这对数据标注企业的交付能力提出更高的需求, 交付时间甚至达到小时级别。
需求端的变化, 也推动自动标注市场格局进入快速调整期。
为了满足主机厂的需求, 除了 AI 赋能生产工具的基础之外, 数据标注企业在各个维度上都努力尝试优化和设计, 进一步提升效率。
比如曼孚科技, 公司强化了 RPA (机器人流程自动化) 在 AI 落地中的作用。在配备 RPA 技术后,SEED 平台可以根据预设的脚本与用户系统交互, 接管那些原本需要人工完成的任务, 从而实现部分流程的自动化, 提高效率。
RPA 通过读取标注员操作日志, 让 AI 能够找出其重复人工环节, 让 RPA 取代人工标注。同时, 曼孚科技的 RPA+AI 技术, 可以根据人类标注员的具体能力, 自动匹配相适应的标注任务, 改变了传统的生产关系, 让业务边界不受限制, 大大提高了交付时间。
在自动驾驶这个高度垂直化的场景中, 对场景坚持深耕, 是数据标注公司的基本功, 只有这样, 才能完成主机厂的定制化数据处理需求。当前, 数据标注行业标准不统一, 每家公司的标注标准也很不相同。主机厂客户在涉及多个细分项目时, 往往倾向选择一家能数据复用的标注公司, 避免数据迁移导致的成本和效率问题。
这对数据标注公司的数据中台提出了更高要求, 只有打通数据流转的全生命周期, 才能够实现数据复用。
为了满足主机厂需求, 覆盖数据流转的全生命周期, 曼孚科技打造了集存储、处理、导入导出于一体的数据管理平台: 通过 SDK 打通数据采集平台、数据标注平台、模型训练平台和生产运营系统等多种外部平台。其中,SDK 能将标注能力模块化, 帮助企业快速构建或增强标注流程, 相当于搭建了一条跨平台的数据高速公路。
有了数据管理平台, 数据标注企业也能接入外部的数据交易核心平台模块, 深入布局数据交易上下游产业链, 连接供给端与需求端。这种方式, 把主机厂变成数据资源供给方, 进一步丰富了数据标注企业的数据集, 形成飞轮效应, 进一步筑高标注企业的竞争壁垒。
从战略到技术落地的一站式数据解决方案, 让曼孚科技与数百家企业达成深度合作, 其中包括世界顶级 Tier1 厂商、造车新势力, 以及传统汽车主机厂商等。
超大赛道有望诞生标注行业独角兽
《2025 自动驾驶数据标注企业 TOP10》榜单评选, 由投资机构的专业人士担任评委, 评选对象, 是市场上活跃的自动驾驶数据标注企业。评选维度主要包括技术能力、标注质量、资本价值和企业规模及影响力四项内容。
综合本次榜单评选的结果,10 家上榜企业在技术能力这一项的评分上, 明显领先非入榜企业, 这也从侧面说明, 数据标注行业当前已转变为技术主导的行业。
资本价值也是本次榜单关注的重点。本次上榜的 10 家企业中,4 家企业获得 5 轮以上融资, 融资轮次涵盖了天使、A、B、C 各个轮次, 这也说明, 这个行业还在市场爆发期。
而且, 标注行业的独角兽, 极有可能在自动驾驶行业诞生。
美国数据标注独角兽企业 Scale AI 最新估值达 138 亿美元, 追溯其发展历程可以看到,Scale AI 的第一个风口, 就是自动驾驶。因此, 国内数据标注行业的独角兽企业, 很有可能在自动驾驶数据标注赛道诞生。
工信部的一份数据显示,2024 年国内 L2 级自动驾驶新车渗透率已达 50%。而随着高阶自动驾驶技术落地,L3 + 渗透率也迎来提速之时。Canalys 预计, 到 2025 年,L3 辅助驾驶市场渗透率有望达到 4.6%。
据英特尔的统计, 一辆 L3 + 级自动驾驶汽车, 每天产生的数据高达 4000GB。
面对即将爆发的 L3 + 市场, 海量数据需要经过筛选、清洗、标注, 自动驾驶数据标注仍有极大的增量空间。根据公开信息, 国内几家相对成熟的数据标注企业, 在 2022 年实现了 200% 以上的业务增速, 且自动驾驶业务占比逐年上升。
自动驾驶数据标注不仅应用于乘用车领域, 还可扩展到物流、农业、矿业和航空等多个领域。这是一个有着广阔前景的市场,AI 的发展将加速行业的发展进程, 也许, 下一个巨无霸会在不远的将来诞生。
0人