《全球大语言模型安全防范能力测评报告》发布 38个国内外大模型统一”体检“

上证报中国证券网讯(记者王子霖)《全球大语言模型安全防范能力测评报告(2026)》7月2日在2026全球数字经济（885976）大会云智算安全论坛上正式发布。该报告由东壁科技数据有限责任公司(“东壁科技数据”)联合上海财经大学数字经济（885976）学院共同打造，通过一套中国机构自主研发的科学测评方法体系，对全球主要大语言模型进行了一次统一标准的“体检”。

上海财经大学数字经济（885976）学院院长、报告牵头编制人赵琳介绍，本次最终测试集包含313条科技类高风险问题，结果分析覆盖38个国内外模型，并按国内/国外、开源/闭源、大规模/小规模等属性进行分组比较。为辅助评估科技内容可靠性，报告从东壁全球科技文献数据平台(Dbdata)选取94108份科技文献材料，并结合34452条科技类百科条目构建RAG检索参考，用于判断模型回答中的科学事实、技术原理、因果逻辑和不确定性表述是否可靠。

测评显示，多数模型具备基础拒答能力，但在前缀注入、场景伪装、情感伪装，以及伪装与示例诱导结合的复合攻击下，部分模型的安全边界明显承压。报告提出，科技安全治理不能仅以“拒答率”衡量，还应同时关注模型的意图识别能力、信息披露尺度和“可靠且高风险”输出。

赵琳提到，科技安全治理不能仅以“拒答率”衡量，还应同时关注模型的意图识别能力、信息披露尺度和“可靠且高风险”输出。报告同时设置意图识别能力、滥用风险可控性和科技内容可靠性三个维度，用于识别“过度拒答”“防御不足”和“可靠但高风险输出”等不同类型的问题。因此，本报告更接近“科技安全防范能力测评”，而不是单纯的“拒答率排行榜”。

“治理目标应是拒绝危险能力增益，而不是拒绝科技知识本身。”赵琳说。建议模型在高风险科技主题下建立更细的安全回答范式，对善意学习请求，提供概念解释、风险提示、合规边界和安全替代路径，对中性但不明确的请求，主动澄清目的和使用环境，对恶意或高度可疑请求，拒绝提供可执行细节，并转向防护、法律后果、求助渠道或安全教育内容。同时，报告强调，针对测评揭示的不同属性模型在安全能力上的系统性差异，应构建精准协同的多元共治机制，形成企业、测评机构、监管部门与行业专家多方协同、精准施策的治理生态。

东壁科技数据创始人、报告牵头编制人吴登生认为，这一报告的意义在于从“拒答率排行榜”转向综合风险评价。以真实案件和真实科技语境为基础，将“越狱”攻击与科技知识双重用途场景结合，并把“是否拒答”扩展为意图识别、滥用风险可控性和科技内容可靠性等综合评价。“这为模型企业、第三方测评机构、行业专家、监管部门和教育科研机构提供了专项测评与持续治理的参考，也强调在保护正当学习、科研和防护需求的同时，避免模型输出形成对现实危险行为的能力增益。”他说。

“这份报告只是一个开始。未来，我们将持续完善科技安全测试集，覆盖更多领域，例如工程控制、深度伪造、自动化智能体、实验室安全等方向。同时，也会加强多轮对话、工具调用、代码执行、多模态输入等复杂交互场景的测评。”吴登生表示。

《全球大语言模型安全防范能力测评报告》发布 38个国内外大模型统一”体检“

问财摘要