作者:Cloudera 首席战略官 Abhas Ricky
过去两年中,企业的AI 战略几乎都遵循着同一种思路:以最快速度接触前沿技术。默认路径通常是申请一个公有云账号、获取来自 OpenAI 或 Anthropic 的 API Key,并愿意以成本换取速度。这种方式的确催生了大量创新项目,但如今已经遇到了瓶颈。
Gartner预测,到2026 年,全球 AI 支出将达到 2.52 万亿美元,同比增长 44%,其中,仅 AI 基础设施投入就将高达 1.37 万亿美元。事实上,早在 2025 年年中,Gartner 就指出,采购领域的 AI已进入“幻灭低谷期(Trough of Disillusionment)”,企业能否实现规模化落地,取决于是否具备可预测的投资回报率(ROI),而非停留在概念验证阶段。现在,企业面临的核心问题,已经从能否快速开展 AI 试点转变为能否在实际生产环境中长期、可控、可治理地运行 AI。
从“先进模型获取”走向“推理经济学”
我们正在从AI 1.0 迈向 AI 2.0。在 AI 1.0 时代,获取最先进的大模型就可以获得竞争优势。而在 AI 2.0 时代,推理经济学(Inference Economics)、数据引力(DataGravity)、延迟以及控制能力将成为决定成败的关键。自 2021 年以来,token 价格每年大约下降 10 倍,但大多数企业的AI总支出却不降反升。原因在于更强大的模型也催生了更复杂的工作流需求。
Anthropic、OpenAI 和 Mistral 正在把产品线划分为旗舰级推理模型和低成本通用模型,因为客户不愿意为每一项任务都支付旗舰级模型的价格。《麦肯锡2025 AI现状》报告证实了这一趋势:AI的应用范围正在扩大,但真正实现规模化价值的企业很少。其中,中国大陆有45%的受访企业实现AI的规模化或全面部署,高于全球 38% 的均值,展现出在AI应用深度上的相对领先优势。CIO 现在关注的问题已不再是哪个模型更强,而是哪一种工作负载应该运行在哪个平台上,成本是多少,以及遵循哪种治理策略。
“下一个最佳行动”测试
以银行业一个典型场景为例:向客户提供“下一个最佳行动(Next Best Action)”推荐——即基于客户实时情境,在 App、网点或呼叫中心中,以毫秒级速度生成推荐内容。Cloudera合作的领先银行已经证明,这种深度个性化服务能力能够带来 5% 至 15% 的收入提升。与Cloudera合作的一家全球性银行推出的 AI 助手,在上线第一年就已处理超过 150 万次客户咨询。
然而,推理成本的现实压力不容忽视。一次智能体决策可能触发5 到 20 次模型调用,而每一次调用都带有各自的上下文窗口。在单轮演示中,每百万输入 token 成本从 0.5 美元与 3.3 美元之间的差异看似微不足道,但在数亿次客户交互中,这种差异足以决定一个功能究竟是会盈利,还是在悄无声息的持续烧钱。
近期研究显示,如果企业在所有任务中使用顶级高级模型,其推理成本的浪费高达40% 至 85%。例如,Decagon 将架构迁移至基于 NVIDIA Blackwell 的开源多模型技术栈后,其每次语音查询成本下降了 6 倍。“下一个最佳行动”已经不再是营销决策,而是一项单位经济学(unit economics)决策,并且是在每一次 token 路由过程中实时完成的。
主权正成为AI 战略核心
关于公有云与Private AI的争论已不再是意识形态之争,而是工作负载层面的现实选择。同时,地缘政治因素也被纳入讨论范畴。
欧盟《AI 法案》(EU AI Act)中关于高风险 AI 系统的规定将于 2026 年 8 月全面生效,违规罚款最高可达 3,500 万欧元或全球营业额7%的罚款。法国与德国也正逐步将国家级采购倾向于本国的Mistral AI 以及基于开放权重模型的主权 AI 技术栈 。
亚洲的AI 监管格局则呈现出更加多元化的发展路径。新加坡的《 AI 治理框架》以及 IMDA 测试工具已成为该地区的范本;日本通过《 AI 推进法》在自愿性指导原则基础上增加了行业监管;韩国的《 AI 基本法》则要求高风险 AI 系统必须购买责任险。与此同时,印度在 2026 年 2 月 AI Impact Summit 上推出了本国主权大模型,并通过 IndiaAI Mission 计划投入 12.5 亿美元,其《数字个人数据保护法(DPDP Act)》也将持续推进至 2027 年。中国正在推动由国家主导的开源建设,同时也在不断推动相关法律法规和标准的建立。例如,由中国牵头立项的《生成式人工智能(885728)风险处理指南》国际标准目前已进入快速制定阶段。此外,印度尼西亚实施《个人数据保护法(PDP Law)》,澳大利亚则采取更务实的行业监管模式。在这样各具特色的 AI 环境中,96% 的亚太企业计划增加 AI 投入,且大多数将采用混合基础设施架构。单一云平台、单一司法辖区的AI 架构,如今已经成为一种结构性风险。
Cloudera 与 NVIDIA 在混合推理领域的合作,以及行业加速采用本地化 AI 部署以支持受监管工作负载,正是这一趋势的直接体现。
真正的护城河在模型之上
过去18 个月中,企业获得的深刻教训是:模型商品化并不会降低企业 AI 的复杂性,只是把复杂性转移到了其他区域。Mistral、DeepSeek 提供的开放权重模型虽然降低了实验成本,但协调、治理、评估和系统集成的复杂性却转移给了企业自身。
同样的趋势,如今也正在物理AI 与国防科技领域上演。Physical Intelligence、Figure AI 和Skild AI 正推动机器人基础模型进入工厂、物流中心与家庭。在这些场景中,低延迟、数据主权与数据驻留的重要性已经超过了模型跑分本身。李飞飞创立的 World Labs正在构建空间智能层(Spatial Intelligence),即具备 3D 感知与推理能力的世界模型,该模型将成为下一代工业数字孪生(885820)系统的基础。Palantir(PLTR) 与 Anduril 则围绕一个核心假设建立了自己的商业版图,他们认为,真正持久的竞争优势并不在于模型本身,而在于控制平面(Control Plane)。
企业领导者应当衡量每项有效任务的单位经济成本、每一个智能体部署的运营负担,以及用于构建相关治理框架的推理成本占比。现实情况是,这个比例通常高达1:5,甚至更高。
银行、电信和制造业的的未来走向
AI 架构的第二次变革正在到来:亚二次复杂度注意力机制(Sub-Quadratic Attention)。来自DeepSeek、Google 与 Cartesia 的新方案,正在以数量级降低长上下文推理的成本。最近的基准测试显示,在保持一定精度的情况下,成本可降低 100 至 300 倍。
对于大型银行而言,这一变革意味着全资产组合风险建模、跨数十年的欺诈模式识别,以及跨司法辖区的KYC(了解你的客户)流程,都可以从过去依赖分块检索(Chunked Retrieval)的方式,转变为一次性推理完成。
对于电信运营商(884313)而言,智能体驱动的网络运维、预测性维护以及跨年度的客户旅程分析,在规模化实施时将在成本上更具备可行性。
对于制造企业而言,全工厂仿真和供应链中断预测也正从周期(883436)性批处理任务转变为持续性推理。
最终胜出的架构,不会是token 价格最便宜的,而是能够将算力部署在最靠近数据的位置、运行在正确司法辖区之下并具备治理能力的架构。可持续、主权、可控将成为 AI 时代的三个新标准。而围绕这些标准构建 AI 能力的企业,将定义未来十年的竞争格局。
