大模型进展专栏第二十六期|追踪2026年1月大模型热点事件：大模型、算力与场景的协同爆发期

2026年1月，全球大模型行业告别单点突破阶段，迈入技术筑基、算力赋能、场景破局的协同发展周期（883436），国内外科技巨头密集释放重磅成果，构建起从底层技术到产业应用的完整价值链条。（1）技术层面，大模型竞争已从参数规模比拼转向效率、智能和生态的综合较量，百度（K89888）文心5.0、阿里（BABA）千问Qwen3-Max-Thinking、月之暗面Kimi K2.5等旗舰产品，以万亿级参数架构、原生多模态融合与Agent智能体创新，刷新多项权威基准测试纪录，推动通用大模型向专业级能力跃迁；（2）算力支撑端，微软（MSFT）Maia 200芯片凭借3nm工艺实现性能与成本效率的双重突破，补齐了大规模模型商业化部署的算力短板，为技术落地提供核心基础设施保障；（3）场景应用侧，呈现垂直深耕和全流程赋能的鲜明特征，OpenAI聚焦健康领域推出ChatGPT Health，以隐私优先设计开辟医疗AI新赛道，字节跳动、MiniMax、腾讯深耕职场场景，通过扣子2.0、Agent 2.0、CodeBuddy Code 2.0重构协作与开发范式，GOOGle DeepMind的D4RT模型更实现四维场景理解的技术跨越，推动AI大模型从工具级应用向产业级赋能升级。在前沿探索与特殊领域，国星宇航完成全球首次通用大模型在轨部署，搭建起服务硅基智能体的太空算力支撑体系，美军则通过双模型协同部署与超大规模AI云服务合同，将大模型分别嵌入作战指挥核心场景与军事全流程数字化管理。这些应用落地既展现了大模型在不同场景下的适配能力，更全方位彰显其从地面到太空、从民生服务到国防安全、从单点工具到全链条支撑的全场景渗透力与价值释放潜力。本期大模型进展专栏“热点事件追踪”栏目，我们将为大家梳理和解读上述大模型相关的重要事件。

一、百度正式上线文心大模型5.0：推动AI向行业深度落地

1月22日，百度（K89888）正式发布并上线文心大模型5.0，以2.4万亿参数规模与原生全模态统一建模技术实现核心突破。该模型采用超大规模混合专家（Mixture of Experts, MoE）架构，通过超稀疏激活设计将推理时激活参数比例控制在3%以内，在兼顾性能的同时显著提升推理效率，区别于传统“后期融合”路线，其统一自回归架构实现了文本、图像、音频、视频等多源数据的深度协同训练。除基础能力升级外，文心大模型5.0构建了覆盖文心lite（LITE）模型、视频/语音专项模型及搜索、电商等垂直场景的模型矩阵，落地声音Token端到端合成、5分钟超真人直播、三态Token联动实时交互数字人等前沿应用。

简评：文心大模型5.0的发布不仅体现了百度（K89888）在超大规模模型与多模态统一建模方面的技术积累，也反映出国内大模型发展正在从“比参数、拼榜单”转向“拼效率、拼场景、拼生态”。原生多模态与高稀疏MoE架构的结合，试图在算力成本与能力上取得更优平衡，这对于工程化落地具有现实意义。更值得关注的是，百度（K89888）通过千帆平台和一系列行业化模型与智能体应用，将基础模型能力嵌入搜索、电商、直播和企业服务等高频业务场景，构建起“模型—工具—应用”的生态闭环。这种以平台和应用为牵引的发展路径，有助于推动大模型从技术展示走向规模化商业化，也可能在国内形成一套可复制的产业范式，对AI产业生态和企业数字化转型产生持续影响。

二、阿里（BABA）发布千问旗舰推理模型Qwen3-Max-Thinking：刷新多项最佳表现记录

1月26日，阿里（BABA）正式发布千问旗舰推理模型Qwen3-Max-Thinking，总参数超万亿，经大规模强化学习后训练与推理技术创新实现性能大幅飞跃，在事实知识、复杂推理、指令遵循等19项权威大模型基准测试中刷新多项最佳表现（SOTA）纪录，尤其在科学知识（GPQA Diamond）、数学推理（IMO-AnswerBench）、代码编程（LiveCodeBench）等关键领域表现优异，达到国际领先水平。该模型大幅增强了原生Agent能力，在初步工具使用微调后，通过大量多样化任务的规则奖励与模型奖励联合强化学习训练，具备自适应工具调用能力，可自主选用搜索、个性化记忆、代码解释器等核心工具，像专业人士一样边用工具边思考，回答更智能流畅且幻觉显著降低，为解决真实复杂任务奠定基础。

简评：Qwen3-Max-Thinking的发布体现了阿里（BABA）在大模型竞争中从“规模与性能展示”向“推理与智能体能力深化”的战略转向。通过引入更大规模的强化学习与工具调用机制，模型不再只是给出答案，而是逐步具备类似专业人员的“边思考边行动”能力，这对于复杂任务自动化和企业级应用具有重要意义。其在数学、代码和科学知识等高门槛评测中的领先表现，也显示出国内模型在核心推理能力上正在缩小与国际顶尖水平的差距。更值得关注的是，阿里（BABA）将模型能力与云服务平台紧密结合，为开发者和企业提供低门槛接入路径，有助于推动模型从实验室成果走向真实业务场景。这种以推理能力和工具协同为核心的发展路线，可能成为下一阶段大模型竞争的重要方向。

三、月之暗面发布Kimi K2.5：Agent集群与跨场景能力实现突破

1月27日，北京月之暗面正式发布新一代开源模型Kimi K2.5，基于万亿参数混合专家（MoE）架构，采用15万亿视觉与文本混合Token原生多模态训练，在HLE、BrowseComp等Agent评测中斩获全球开源模型最佳成绩。该模型创新推出“Agent智能体集群”架构，可动态调度100个专业子Agent并行处理1500个任务步骤，在市场调研、多语种翻译等场景中获得效率提升；代码生成实现功能与审美结合，支持“视觉即代码”开发方式，能通过截图或录屏解析交互逻辑生成前端代码，普通用户可通过圈选标注完成界面修改；同时深度掌握Office等系列软件技能，支持视频内容直接处理，运行成本显著低于同类国际模型。

简评：Kimi K2.5的发布与开源，体现了国内初创团队在多模态与智能体方向上的技术进取心与生态意识。其将视觉理解、推理、编程与Agent能力整合到统一架构中，降低了普通用户和开发者从“想法”到“可用产品”的门槛，尤其在前端开发与办公自动化场景中，展现出较强的实用导向。更具意义的是，开放模型与工具接口，有助于吸引社区与产业共同参与模型优化和应用创新，形成正向循环。通过“Agent集群”这种多角色协同的范式探索，Kimi也在尝试突破单模型能力边界，为复杂任务处理提供新的技术路径。这种兼顾技术深度与生态开放的发展思路，或将推动国内开源大模型在国际舞台上获得更高关注度与影响力。

四、小米MiMo-V2-Flash模型：完成更新并启动商业化

1月12日，小米（K81810）对MiMo-V2-Flash模型进行版本更新，重点强化通用任务处理能力与编程场景的Thinking模式代码生成质量，全面适配Claude Code并优化Kilo、Cline等代码辅助工具的交互体验，同时提升模型输出稳定性与特定格式遵循能力，更新后其Thinking模式在SWE-Bench Verified评测中达到74.2分，Arena-Hard创意写作场景得分升至90.4分。北京时间1月26日16:00，该模型正式启动商业化计费，采用全球差异化定价策略。

简评：MiMo-V2-Flash的这次更新与商业化落地，体现了小米（K81810）在大模型赛道上更加务实的工程取向与开发者导向思维。一方面，通过强化“Thinking”模式下的代码生成质量，并深度适配主流编程工具链，模型能力被直接嵌入到真实开发流程中，提升了开发效率与使用黏性；另一方面，在权威评测中的分数提升，也为其技术成熟度提供了外部佐证。更值得关注的是其差异化定价与缓存命中优惠机制，显示出对成本控制与规模化调用场景的重视。这种将模型性能、工具生态与商业模式同步推进的路径，有助于小米（K81810）在竞争激烈的大模型市场中建立稳定的开发者社区和持续的产业影响力。

五、 OpenAI推出ChatGPT Health功能：聚焦健康领域专属服务与隐私保护

1月7日，OpenAI正式推出ChatGPT Health功能，作为集成于ChatGPT中的健康与保健专属模块，旨在通过整合用户健康信息与人工智能（885728），帮助用户了解自身健康状况、为就医做准备并辅助健康决策。该功能针对健康领域特性设计多层保护机制，包括独立加密隔离空间，健康对话、连接的应用及文件均与其他聊天内容隔离存储，且相关数据不用于基础模型训练，同时支持多因素身份验证（Multi-Factor Authentication, MFA）强化访问安全。用户可安全连接电子医疗记录或健康应用，基于个人健康数据获取检查结果解读、就诊准备建议、饮食运动规划及保险方案对比等服务。

简评：ChatGPT 健康的推出标志着大模型从“信息工具”向“个人化健康助理”迈出关键一步。其核心价值不在于替代医生，而是在隐私与安全机制加固的前提下，帮助用户整合分散在医疗记录、应用与可穿戴设备中的数据，形成更连续、可理解的个人健康画像。通过与医生深度参与评估与训练框架建设，该功能在表达方式与风险提示上更贴近真实医疗场景，有助于减少误解与过度依赖技术的隐患。更值得关注的是，其独立空间与数据隔离设计，为敏感健康信息的合规使用提供了一种可参考的范式。若能在不同国家与医疗体系中持续扩展数据连接能力，ChatGPT 健康有望成为连接个人、医疗机构与数字健康生态的重要中间层，推动健康管理从被动应对走向主动参与。

六、 GOOGle DeepMind发布D4RT模型：实现四维场景重建与实时追踪突破

1月22日，GOOGle DeepMind正式推出D4RT（Dynamic 4D Reconstruction and Tracking）模型，作为统一的四维场景重建与追踪AI框架，通过融合空间三维与时间维度，帮助机器像人类一样理解动态现实世界。该模型采用统一编码器-解码器Transformer架构，创新引入基于查询的核心机制，聚焦“视频像素在任意时间、特定相机视角下的3D空间位置”这一核心问题，无需拆分模块即可同步完成点追踪、点云重建、相机姿态估计等多元4D任务，有效解决了传统方法需多模型拼接、计算密集的痛点。性能上，D4RT在MPI Sintel、Aria Digital Twin等多个基准测试中表现优于现有方案，能精准处理快速运动模糊、非刚性形变及遮挡场景，效率较此前最先进方法提升18至300倍，单块TPU芯片处理一分钟视频仅需约5秒，满足实时应用需求，其下游应用覆盖机器人、AR、世界模型构建等领域。

简评：从研究范式上看，D4RT的提出标志着计算机视觉正在从“逐模块拼接”的感知体系，迈向“统一时空建模”的新阶段。其以查询为核心的Transformer框架，将几何、运动与视角变化整合进同一表示空间，不仅简化了传统依赖多模型协作的复杂流程，也显著提升了效率与可扩展性。更具启发意义的是，这种将时间作为一等维度纳入建模的思路，为构建具备持续记忆与因果理解能力的“世界模型”提供了技术路径。随着在机器人与增强现实等实时场景中的潜在落地，D4RT不仅是一项性能突破，更可能成为连接感知、预测与行动的重要中间层，对未来空间智能与通用人工智能（885728）研究产生深远影响。

七、微软发布Maia 200芯片：3nm工艺赋能AI高效部署

1月26日，微软（MSFT）正式推出专为AI推理场景设计的突破性加速器Maia 200，基于台积电（TSM）3nm工艺打造，集成超1400亿晶体管，在性能与成本效率上实现双重突破。该加速器4位精度（FP4）性能超越亚马逊（AMZN）第三代Trainium芯片3倍、8位精度（FP8）性能高于谷歌（GOOG）第七代TPU，且每美元性能较微软（MSFT）现有最新硬件提升30%。其应用覆盖OpenAI GPT-5.2模型运行、微软（MSFT）自研下一代模型的合成数据生成与强化学习，目前已在美国中部数据中心部署，亚利桑那州西部数据（WDC）中心后续上线，配套的Maia SDK预览版同步开放，提供PyTorch集成、Triton编译器及Maia底层编程语言访问支持，助力开发者实现模型高效迁移与优化。

简评：从产业格局来看，Maia 200的推出凸显了云服务商正从“依赖通用加速器”走向“自研推理芯片+云平台深度耦合”的新阶段。其围绕低精度计算、高带宽存储与标准以太网规模互联的系统级设计，直指大模型推理成本与能效这一核心瓶颈，有助于将算力优势直接转化为更低的单位生成成本和更高的服务可扩展性。更重要的是，芯片、网络、冷却与软件栈的协同开发，使硬件不再只是性能指标的堆叠，而成为云生态的一部分，为模型部署、优化与迁移提供统一接口。这种“从硅到云”的一体化路线，可能重塑云厂商在AI基础设施层面的竞争方式，并对大模型商业化与全球算力格局产生长期影响。

八、字节跳动扣子2.0上线：强化Agent全场景职场赋能

1月19日，字节跳动旗下AI产品扣子正式推出2.0版本，围绕“主动服务、专业赋能”核心，升级四大核心能力模块，从工具型AI向“能落地、善执行”的职场伙伴转型。该版本创新推出Agent Skills技能系统，将行业最佳实践与工具封装为可直接调用的技能，其中官方视频创作Skill支持自然语言生成脚本、匹配素材、剪辑转场，实现音画精准同步，解决传统AI视频画面与音频割裂的痛点。新增的Agent Plan长期计划功能，可根据用户设定的目标自动规划执行路径，持续完成市场调研、内容创作、数据优化等任务并主动汇报进展。Agent Office模块强化职场场景适配，通过多轮对话深度理解复杂背景，提供兼具答案与底层逻辑的洞察，同时支持Word报告、Excel数据分析、PPT制作等一站式办公任务。此外，升级后的扣子编程平台作为云端开发工具，支持零代码/低代码构建智能体、网站、游戏（881275）等产品。

简评：从产品形态演进来看，扣子2.0体现了智能体从“被动响应工具”向“主动执行伙伴”的重要转变。通过引入可复用的行业技能包与长期目标驱动机制，平台尝试将个人与团队的隐性经验沉淀为结构化能力，使AI不再停留在生成内容层面，而是参与到任务拆解、流程推进与结果反馈的完整闭环中。其视频创作、办公与开发一体化能力，降低了非技术用户参与数字创作与应用开发的门槛，有助于推动“人人可构建Agent”的生态形成。更长远看，这种以技能市场与开发平台联动的模式，正在探索一种新的生产力分发方式，或将重塑职场工具与知识服务的商业模式。

九、 MiniMax Agent 2.0 上线：AI-native Workspace 引领职场协作升级

1月20日，MiniMax正式推出Agent 2.0，核心升级为AI-native Workspace，以两大核心更新实现从“被动工具”到“主动协作伙伴”的转型，重塑职场生产力形态。其一为桌面端应用，经用户授权后可直接操作本地文件系统，同时联动网页自动化完成任务。其二是专家智能体功能，区别于初代通用模式，支持用户上传私有知识库、注入行业专属SOP，将AI专业度提升至垂直领域专家级。产品底层搭载分层协作Agent框架与100万上下文长程记忆，能自主拆解复杂任务并动态调整策略，适配办公、开发、商业等多场景。

简评：MiniMax的实践展示了“Agent 原生公司”可能呈现的早期形态。通过将智能体深度嵌入文档、代码库、运维系统与业务流程，AI不再只是辅助工具，而是参与决策链条与执行闭环的“数字同事”，从而重塑岗位分工与协作方式。其在运维、销售与研发等高复杂度场景中的应用，体现了人类更多转向判断、策略与创造性思考，而将高频、重复性与规则化任务交由Agent承担。更具启发意义的是，对长期记忆与环境感知型智能体的探索，为构建“AI原生工作空间”提供了现实样本。这种以组织形态变革为牵引的技术落地路径，或将对未来企业管理模式与人才能力结构产生深远影响。

十、腾讯CodeBuddy Code 2.0重磅升级：赋能AI Native开发新范式

1月22日，腾讯正式推出CodeBuddy Code 2.0，以四大核心升级重构AI编程体验。此次升级开放SDK与APIKey集成能力，通过Plan模式与ACP协议提升协作与集成性。产品全面兼容开发者生态，支持Plugin插件市场、自定义Subagents智能体及AgentHooks管家，低成本高效迁移CLI Agent生态内容。同时搭载隔离沙箱环境，集成TencentOS实现容器级安全隔离，保障代码执行与文件网络安全（885459）。此外，优化工（850102）程记忆、交互模式等功能，支持GLM-4.7、GPT-5.2等国内外高级模型。

简评：CodeBuddy Code 2.0 的升级标志着国内 AI 编程助手进入了全新阶段，其不仅在功能上实现多维优化，更在生态、协作和安全层面全面发力。通过开放 SDK、Plan 模式与 ACP 协议，企业和开发者可以快速构建生产级 AI Agent 应用，实现自然语言编程与多 Agent 协同开发的落地；对开发者社区和 Plugin 插件市场的支持，使技能能力可复用、可扩展，极大降低迁移成本。沙箱隔离和 TencentOS 的集成，则保障了安全可靠的开发环境，企业级应用可安心部署。功能优化覆盖从需求规划、工程理解到代码生成和交付的全流程，同时支持国内外主流模型，实现 AI 自举式研发闭环。这次升级不仅提升了研发效率，也推动了 AI Native 团队开发的新范式，彰显 CodeBuddy Code 在企业级 AI 编程场景的核心价值与未来潜力。

十一、千问大模型Qwen3成功在轨部署：太空算力网落地突破

1月26日，“星算智联”太空算力研讨会披露，国星宇航于2025年11月成功将千问大模型Qwen3部署至“星算”计划01组太空计算中心，实现全球首次通用大模型在轨应用。该模型在轨期间多次完成端到端推理任务，从地面上传问题到卫星推理并回传结果，全流程耗时不足2分钟，验证了太空场景下大模型的实用可行性。“星算”计划作为全球首个服务硅基智能体的太空算力网，规划由2400颗推理计算卫星与400颗训练计算卫星组成，核心服务自动驾驶载具、无人机（885564）等智能体及AI模型的天地协同推理与训练。目前01组已完成关键技术验证，02组、03组已投产，计划2026年实现轨道部署，首发星座已于2025年5月通过火箭送入预定轨道。

简评：这一事件标志着人工智能（885728）从“云端与地面”迈向“在轨与太空”的关键跨越，具有里程碑意义。通用大模型在卫星上实现端到端推理，意味着算力不再只是地面基础设施的专属资源，而开始向空天体系延伸，为遥感处理、灾害监测、应急通信与军事感知等场景带来低时延、高自主性的全新能力范式。从“天感地算”到“天感天算、天地协同”的转变，本质上重构了数据生产与决策链条。与此同时，“算力星网”合作倡议的提出，显示出我国正从单点技术验证走向体系化布局，围绕芯片、通信、供能与标准展开联合攻关。未来，太空算力有望成为继云计算（885362）和边缘计算之后的新型战略基础设施，为空天地一体化智能系统和新兴产业生态打开广阔空间。

十二、美军GenAI.mil平台双模型部署落地：Grok与Gemini赋能全域军事智能

1月13日，美国战争部部长赫格塞思宣布，将于1月底前完成xAI公司Grok人工智能（885728）系统与GenAI.mil军用AI平台的整合，与已接入的谷歌（GOOG）Gemini系统形成“双模型协同”架构，覆盖约300万军事及文职人员。该平台达到最高安全等级（Impact Level 5），可合规处理受控非密信息（CUI），核心聚焦作战规划、情报解析、后勤调度、威胁评估等实战场景，Grok凭借实时数据流处理优势，能联动X平台捕捉全球动态信号，为战场态势感知与快速决策提供支撑。不过，批评人士担忧，系统可能存在故障风险与算法偏见，且马斯克对xAI及X平台的控制权，或对军事决策独立性产生潜在影响。

简评：这一举措体现了美军在军事智能化上的进一步加速与体系化布局。通过引入Grok与Gemini形成“双模型协同”，不仅增强了平台在实时信息处理与复杂推理上的互补能力，也凸显出人工智能（885728）正从辅助分析走向深度嵌入作战与保障链条的核心环节。覆盖数百万人员的高安全等级平台，意味着AI开始在情报、后勤和威胁评估等关键领域承担准“基础设施”角色，有助于提升决策速度与全域联动能力。然而，围绕算法偏见、系统可靠性以及商业科技公司对关键军事系统影响力的争议，也反映出军事AI在技术优势与治理风险之间的张力。未来，如何在效率、透明性与战略自主性之间取得平衡，将成为此类平台能否长期稳定运行的关键。

十三、美陆军签署56亿美元AI云服务合同：Salesforce赋能全域军事数字化转型

1月28日，美国陆军与Salesforce公司达成一项为期10年、最高价值56亿美元的重大合同，通过整合数据管理、云计算（885362）与人工智能（885728）能力，推动陆军作战与管理全流程数字化现代化。该合同由Salesforce子公司Computable Insights LLC执行，依托Missionforce National Security交付，将在陆军及国防部全域部署统一数字化系统。核心赋能包括构建集中式数字平台，将实时分析能力嵌入指挥工作流，加速决策效率的同时，降低人事管理、案件处理与训练交付中的行政冗余成本。Missionforce和政府云首席执行官Kendall Collins表示，该技术将为部队适配动态作战环境，精简流程、提升战备水平，让服役人员聚焦核心任务；国家安全部、国防和情报项目副总裁Alan Webber则强调，此次合作标志着美军从“采购软件”向“规模化统筹作战成果”转型。

简评：这一高额、长期合同凸显了美军将人工智能（885728）与云服务视为“数字战力基础设施”的战略定位。通过引入Salesforce的集中式平台与实时分析能力，陆军试图打通作战指挥、管理与保障体系中的数据孤岛，使信息流动更贴近战场节奏与决策链条，从而提升全域协同与响应速度。这不仅是一次技术采购，更是一种组织运行模式的重塑，体现出军事数字化正从局部系统升级迈向全流程、平台化转型。不过，高度依赖商业云与外部技术生态，也在安全可控性、长期成本锁定与战略自主性方面带来新的治理挑战，未来如何在效率提升与核心能力掌控之间取得平衡，将成为该模式能否持续成功的关键。