Qwen3-Max、DeepSeek V3.1 齐更新,国产大模型再次追赶 GPT-5
近期大模型圈热度拉满!9 月 24 日,阿里推出 Qwen3-Max,性能号称超越 GPT-5-Chat;此前引发关注的 DeepSeek-V3.1-Terminus,也凭借落地场景优化持续圈粉。现在,新老用户在七牛云小程序即可一站式体验两大热门模型,新用户更能免费领取 300 万全系列模型抵扣 Tokens,零成本体验国产顶尖模型性能!
Qwen3-Max:“大” 到超越 GPT-5 的性能王者
阿里 Qwen3-Max 以 “万亿参数 + 极致性能” 重新定义大模型标杆,核心亮点集中在 “规模、效率、能力” 三大维度:
在规模与性能上,总参数突破 1T,预训练使用 36T tokens,数据量相比上一代增加 80%,奠定了强大性能基础。通过 MoE 结构与 PAI-FlashMoE 策略,训练效率大幅提升,长序列任务吞吐提升 3 倍,同时硬件故障损失显著降低,实现“更大、更快、更稳”。
在能力层面,Qwen3-Max-Instruct 预览版已在 LMArena 文本排行稳居全球前三,超越 GPT-5-Chat;正式版更在 SWE-Bench Verified 基准中拿下 69.6 分,在 Tau2-Bench 工具调用能力评估中以 74.8 分超越 Claude Opus 4 与 DeepSeek-V3.1。另有 Qwen3-Max-Thinking(Heavy)在 AIME 25、HMMT 等高难度推理任务中实现 100% 准确率,国内首次达到该水平。
DeepSeek-V3.1-Terminus:落地场景的 “实用专家”
如果说 Qwen3-Max 展示了国内大模型在规模和性能上的极限突破,那么 DeepSeek-Terminus 则更像是贴近开发者需求的实用专家。它通过聚焦 “实际场景适配”,通过两大核心升级解决开发者痛点,官方测评与网友实测均证实其能力提升:
语言一致性优化:告别“混乱输出”,文本可用性大幅提升。V3.1-Terminus 通过底层生成逻辑优化,将中英文混杂率降低 90%,异常字符出现频率压至 0.1% 以下。无论是撰写中文产品需求文档,还是生成多语言用户指南,输出都更规整、更贴合实际。
Agent 能力双突破:对于开发者高频使用的 Code Agent 与 Search Agent,V3.1-Terminus 实现了“正确率+速度”双提升。
Code Agent 更懂开发:支持 Python、Java、Go 等 12 种主流编程语言,复杂算法脚本生成正确率从 V3.1 版本的 72% 跃升至 85%。
Search Agent 更准更快:面对“多轮复杂提问”,关键信息抓取准确率提升 20%,平均响应速度从 1.2 秒/轮缩短至 0.9 秒/轮,无需长时间等待检索结果。
更直观的对比见下表:
换句话说,Terminus 更适合直接用在 App / Web / API 场景,尤其涉及工具调用和复杂任务时,表现更稳。
0人