《全球大语言模型安全防范能力测评报告》发布 38个国内外大模型统一”体检“

2026-07-02 22:20:37
分享
AIME

问财摘要

1、7月2日,东壁科技数据联合上海财经大学数字经济学院发布了《全球大语言模型安全防范能力测评报告(2026)》。该报告通过一套中国机构自主研发的科学测评方法体系,对全球主要大语言模型进行了一次统一标准的“体检”。 2、测评结果显示,多数模型具备基础拒答能力,但在前缀注入、场景伪装、情感伪装等攻击下,部分模型的安全边界明显承压。报告提出,科技安全治理不能仅以“拒答率”衡量,还应同时关注模型的意图识别能力、信息披露尺度和“可靠且高风险”输出。 3、报告设置意图识别能力、滥用风险可控性和科技内容可靠性三个维度,用于识别“过度拒答”“防御不足”和“可靠但高风险输出”等不同类型的问题。 4、报告强调,应构建精准协同的多元共治机制,形成企业、测评机构、监管部门与行业专家多方协同、精准施策的治理生态。
免责声明 内容由AI生成
文章提及标的
数字经济--

上证报中国证券网讯(记者王子霖)《全球大语言模型安全防范能力测评报告(2026)》7月2日在2026全球数字经济(885976)大会云智算安全论坛上正式发布。该报告由东壁科技数据有限责任公司(“东壁科技数据”)联合上海财经大学数字经济(885976)学院共同打造,通过一套中国机构自主研发的科学测评方法体系,对全球主要大语言模型进行了一次统一标准的“体检”。

上海财经大学数字经济(885976)学院院长、报告牵头编制人赵琳介绍,本次最终测试集包含313条科技类高风险问题,结果分析覆盖38个国内外模型,并按国内/国外、开源/闭源、大规模/小规模等属性进行分组比较。为辅助评估科技内容可靠性,报告从东壁全球科技文献数据平台(Dbdata)选取94108份科技文献材料,并结合34452条科技类百科条目构建RAG检索参考,用于判断模型回答中的科学事实、技术原理、因果逻辑和不确定性表述是否可靠。

测评显示,多数模型具备基础拒答能力,但在前缀注入、场景伪装、情感伪装,以及伪装与示例诱导结合的复合攻击下,部分模型的安全边界明显承压。报告提出,科技安全治理不能仅以“拒答率”衡量,还应同时关注模型的意图识别能力、信息披露尺度和“可靠且高风险”输出。

赵琳提到,科技安全治理不能仅以“拒答率”衡量,还应同时关注模型的意图识别能力、信息披露尺度和“可靠且高风险”输出。报告同时设置意图识别能力、滥用风险可控性和科技内容可靠性三个维度,用于识别“过度拒答”“防御不足”和“可靠但高风险输出”等不同类型的问题。因此,本报告更接近“科技安全防范能力测评”,而不是单纯的“拒答率排行榜”。

“治理目标应是拒绝危险能力增益,而不是拒绝科技知识本身。”赵琳说。建议模型在高风险科技主题下建立更细的安全回答范式,对善意学习请求,提供概念解释、风险提示、合规边界和安全替代路径,对中性但不明确的请求,主动澄清目的和使用环境,对恶意或高度可疑请求,拒绝提供可执行细节,并转向防护、法律后果、求助渠道或安全教育内容。同时,报告强调,针对测评揭示的不同属性模型在安全能力上的系统性差异,应构建精准协同的多元共治机制,形成企业、测评机构、监管部门与行业专家多方协同、精准施策的治理生态。

东壁科技数据创始人、报告牵头编制人吴登生认为,这一报告的意义在于从“拒答率排行榜”转向综合风险评价。以真实案件和真实科技语境为基础,将“越狱”攻击与科技知识双重用途场景结合,并把“是否拒答”扩展为意图识别、滥用风险可控性和科技内容可靠性等综合评价。“这为模型企业、第三方测评机构、行业专家、监管部门和教育科研机构提供了专项测评与持续治理的参考,也强调在保护正当学习、科研和防护需求的同时,避免模型输出形成对现实危险行为的能力增益。”他说。

“这份报告只是一个开始。未来,我们将持续完善科技安全测试集,覆盖更多领域,例如工程控制、深度伪造、自动化智能体、实验室安全等方向。同时,也会加强多轮对话、工具调用、代码执行、多模态输入等复杂交互场景的测评。”吴登生表示。

免责声明:风险提示:本文内容仅供参考,不代表同花顺观点。同花顺各类信息服务基于人工智能算法,如有出入请以证监会指定上市公司信息披露平台为准。如有投资者据此操作,风险自担,同花顺对此不承担任何责任。
homeBack返回首页
不良信息举报与个人信息保护咨询专线:10100571违法和不良信息涉企侵权举报涉算法推荐举报专区涉青少年不良信息举报专区

浙江同花顺互联信息技术有限公司版权所有

网站备案号:浙ICP备18032105号
证券投资咨询服务提供:浙江同花顺云软件有限公司 (中国证监会核发证书编号:ZX0050)
AIME