近日,工业和信息化部批准发布《YD/T6770—2026人工智能(885728)关键基础技术具身智能基准测试方法》行业标准,为具身智能领域首份行业标准,将于6月1日正式实施,标志着具身智能评测迈入“有标可依”的新阶段。
据介绍,该标准为具身智能领域构建了统一基准测试框架,规范了在仿真环境和真实环境下,开展具身智能基准测试的环境设置、任务库构建、测试过程和指标计算方法。目前,该标准已同步推进国际标准立项。
国家信息中心信息化和产业发展部未来产业处副处长、正高级工程师张延强接受本报记者采访时表示,此次发布的具身智能基准测试方法行业标准,既是定方向、控风险规范国内具身智能产业发展的“定盘星”,也是促落地、定规则提升国际标准话语权的“先手棋”。
告别“自说自话”
标准发布正当其时
“十五五”规划《纲要》明确,瞄准引领未来发展重点领域,构建未来产业全链条培育体系,推动具身智能、第六代移动通信等成为新的经济增长点。目前,北京、上海、杭州、武汉等地出台具身智能专项扶持政策,抢滩布局人工智能(885728)新赛道。
“近年来,在政策指引、技术发展、需求牵引、资本投入多重因素作用下,我国具身智能产业迎来爆发式增长。与此同时,行业内技术路线和产品方案多样,由于缺乏统一的测试基准,各企业在产品研发和宣传过程中各自为战、自说自话,产品良莠不齐、用户优劣难辨、市场竞争无序,严重制约了整体创新效率。”张延强告诉本报记者,行业迫切需要一套统一的评测基准,客观界定具身智能的能力水平和综合性能,进而引导技术快速迭代、推动应用分阶段落地。
目前,我国具身智能技术加快发展,产业发展进入量产化阶段。减速器(886008)、力传感器(885946)、灵巧手等硬件性能不断提升,视觉语言动作模型、世界模型等具身智能模型具备初步规划、泛化能力,具身智能应用场景不断拓展。
工业和信息化部相关数据显示,2025年国内人形机器人(886069)整机企业数量超140家,发布人形机器人(886069)产品超330款。另据IDC发布的《全球人形机器人(886069)市场分析》显示,2025年全球人形机器人(886069)出货量约为1.8万台,中国企业占据主导地位。
同时,具身智能行业受到资本青睐。IT桔子数据显示,2025年具身智能领域发生投融资事件334起,金额共计364.75亿元;2026年一季度,具身智能领域已发生投融资事件132起,金额共计318.61亿元。
从国内看,具身智能正处于从实验室走向规模化商用的关键阶段,需要一把“标尺”定方向、防乱象、促合规。
“由于缺少统一的测评基准,行业乱象多发,部分厂商自研测试指标,有的说自己精度高,有的说自己泛化强,有的说自己响应快,性能数据不可比、不可信,用户选型无依据、不敢买、怕踩坑。”在张延强看来,标准的发布正当其时,如果发布过早,技术不成熟、场景不明确,标准定出来也没人遵守;如果发布太晚,路线已分散、生态已割裂,企业按照标准改造成本极高。
从国际看,如今具身智能成为全球关注的科技前沿,推进国际标准研制有利于占据产业竞争制高点。
麦肯锡全球研究院发布的《未来的主要“竞技场”》将人工智能(885728)和机器人列为塑造未来全球竞争力的主要技术。英伟达(NVDA)创始人黄仁勋曾在ITFWorld半导体(881121)大会上断言:“AI的下一个浪潮是具身智能。”特斯拉(TSLA)将研发具备自主性的人形机器人(886069)作为优先事项,并推出量产版第三代擎天柱人形机器人(886069),最终规划产能将达到年产100万台。
与此同时,美国、欧盟、日本等国也在加速具身智能标准布局,但国际上尚无统一具身智能测试标准。
近期,国际电信联盟(ITU)成立具身智能焦点组,积极推进真机仿真数据、具身基础模型、具身本体、行业场景应用的技术标准研究。
张延强表示,推进我国具身智能基础测试标准在ITU等国际组织标准立项,有利于推动我国技术路线、系统架构与应用范式纳入全球标准体系,以中国测试框架、中国指标体系影响全球具身智能治理规则,进而支撑国内企业产品快速适配国际准入要求,将技术优势转化为标准优势,抢占产业制高点。
五大核心维度
定义产业“真落地”标尺
此次发布的标准,其核心价值在于构建了一套覆盖全链路、可量化、可复现的产业级能力验证体系。
“行业标准通过四大测试框架、五大核心指标、L1-L4能力分级,定义了具身智能从“样品”到“商品”的产业化应用标尺。”在张延强看来,标准从5个核心维度提出了具身智能商业应用的能力验证体系。
一是在环境方面,必须通过仿真环境和真实环境双重极端考验。仿真环境包括强制加入光照突变、物体变形、地形崎岖、动态干扰等“作弊场景”,杜绝实验室优化;真实环境覆盖工业、家庭、物流、零售等多个真实场景,要求在非结构化、动态、开放环境下稳定运行。
二是在任务方面,标准设置了多场景、长时序、高复杂度的测试任务库,评估具身智能完成工业装配、家庭服务、应急处理等真实业务流程长链条任务的性能表现,可能涉及行走、抓取、避障、开门等基础动作,以及搬运、送餐、清洁等组合动作。
三是在能力方面,标准提出L1到L4能力分级体系,要求具身智能具备感知、决策、执行、交互全链路闭环能力。L1-L4分级从固定程序执行到动态环境适应,从复杂任务规划与泛化到自主学习与持续进化,对应不同的技术成熟度和适用场景。
四是在考核方面,标准设置了任务成功率、任务执行效率、人工干预率、任务扰动衰减率、平均任务能耗五大核心指标,综合衡量具身智能的性能。以任务成功率指标为例,要求具身智能系统不是“偶尔成功”,而是稳定、高效、低耗、少人干预的规模化重复成功。
五是在安全伦理方面,要求具身智能系统全生命周期(883436)合规。比如,功能上要具有力控保护,避免对人员造成伤害;数据上要求加密传输、模型要能防篡改;伦理上,要拒绝执行有害指令、风险可控等。
“与以往厂商实验室环境、单一任务或功能的自导自演式产品演示和短期试点不同,其本质是一套产业准入级的能力验证体系。”张延强对记者说,“通俗来讲,前者是‘表演’,后者是‘考试’;前者是‘秀肌肉’的特例,后者是‘过日子’的通例;前者是‘实验室样品’,后者是‘工业化产品’。”
破除“伪落地”误区
具身智能产品应用场景多样,不同的场景对于具身智能产品的能力要求不同。正因应用场景复杂多样,确立一套超越具体场景、客观衡量产品商业化成熟度的统一标尺才显得尤为重要。
在张延强看来,判断一款具身智能产品真正实现商业化落地主要看三个方面。具体来看,一是五大性能指标表现优异,要求人工干预少、任务成功率高、抗干扰能力强、续航时间长;二是真实复杂场景稳定运行,必须通过仿真环境和真实环境双场景鲁棒性测试,要求在杂乱、反光、弱光、地形变化、人员动作变化的场景仍稳定;三是安全伦理可追溯,换言之,没有安全体系就不能进工厂、不能进公共场景,也就不是商业化产品。
“环境可控、动作固定、依赖人工、无安全体系的具身智能产品都没有真正实现商业化落地,是当前行业典型的‘伪落地’误区,也是厂商最容易包装、最容易误导验收的套路。”张延强解释道,一是误将试验环境高成功等同于落地,试验环境条件完美、物体固定、无干扰,部分产品在试验环境下100%成功,但真实场景下成功率可能不足30%。二是误将能完成一个复杂动作等同于商用,部分厂商通过演示“拧螺丝、接线、倒茶”等单个动作宣传其产品可用于商业化场景,实际上单点动作不等于业务流程,必须完成长链条、多步骤、带异常的业务闭环才能满足商业应用门槛。三是掩盖遥控或后台辅助宣传自主智能,部分具身智能产品需要操作员后台发指令、调参数、甚至救场,一般认为,需要人工严重干预或人工干预率过高尚不具备商用条件。四是回避安全和伦理要求,只展示功能,不提急停、不提力控、不提日志,如果安全伦理通不过,无法进入园区、难以进入产线。
据悉,该标准将于6月1日正式实施,业界认为这将对产业链上下游的研发、检测、认证带来重构性影响。
张延强认为,标准的实施预示着我国具身智能产业从“技术探索”阶段正式迈入“规范发展”新阶段,标准以分级定能力、以测试定真伪、以认证定准入、以合规定安全,将从研发导向、检测体系、认证机制三方面重构产业链,形成标准牵引、合规倒逼、生态升级的产业循环升级的闭环。
研发方面,张延强表示,标准将有利于加速技术路线收敛,面向场景需求,以功能分级和测试指标为依据,将标准要求嵌入研发全流程,通过统一术语、接口与数据格式,推动感知、决策、执行、交互等模块的标准化兼容,降低产业链协同成本;淘汰重演示轻工程的路线,聚焦端侧实时闭环、真实场景性能泛化、长链任务鲁棒性等高价值方向,减少无效研发投入。
检测方面,张延强指出,标准将推动从厂商自证向第三方验证转变。一是检测流程标准化,按标准统一环境设置、任务库构建、指标计算方法,实现可复现、可比对、可追溯。二是检测机构专业化,具备仿真和真实双环(TWIN)境测试能力、符合标准任务库要求的机构将成为主流,仅能做单一演示的实验室被淘汰。
认证方面,张延强表示,厂商将从被动参与到自愿认证转变。一方面,重塑市场秩序,无认证或低等级认证产品将被清出高需求市场,遏制“伪落地”“概念炒作”,避免劣币驱逐良币,利好真正具备规模化能力的企业。另一方面,提升企业能力,随着产业成熟度逐步提升,认证结果或将成为产品招投标、政府采购的硬性门槛,引导企业建立安全伦理合规体系、可追溯日志、应急处置预案,从“一次性认证”转向“持续合规”。
“虽然该标准目前为行业推荐性标准,厂商为了适应市场需求大概率会主动对拟上市产品进行能力基准测试。”张延强告诉记者,随着标准体系完善与产业成熟,公共安全、医疗等高风险细分场景强制认证是大势所趋,未来可能通过政府采购、招投标或行业监管等方式实质推动其成为事实上的强制要求,最终推动行业实现规范化、规模化和高质量发展。
