从Token到信任：AI 的2.5 万亿美元挑战

作者：Cloudera 首席战略官 Abhas Ricky

过去两年中，企业的AI 战略几乎都遵循着同一种思路：以最快速度接触前沿技术。默认路径通常是申请一个公有云账号、获取来自 OpenAI 或 Anthropic 的 API Key，并愿意以成本换取速度。这种方式的确催生了大量创新项目，但如今已经遇到了瓶颈。

Gartner预测，到2026 年，全球 AI 支出将达到 2.52 万亿美元，同比增长 44%，其中，仅 AI 基础设施投入就将高达 1.37 万亿美元。事实上，早在 2025 年年中，Gartner 就指出，采购领域的 AI已进入“幻灭低谷期（Trough of Disillusionment）”，企业能否实现规模化落地，取决于是否具备可预测的投资回报率（ROI），而非停留在概念验证阶段。现在，企业面临的核心问题，已经从能否快速开展 AI 试点转变为能否在实际生产环境中长期、可控、可治理地运行 AI。

从“先进模型获取”走向“推理经济学”

我们正在从AI 1.0 迈向 AI 2.0。在 AI 1.0 时代，获取最先进的大模型就可以获得竞争优势。而在 AI 2.0 时代，推理经济学（Inference Economics）、数据引力（DataGravity）、延迟以及控制能力将成为决定成败的关键。自 2021 年以来，token 价格每年大约下降 10 倍，但大多数企业的AI总支出却不降反升。原因在于更强大的模型也催生了更复杂的工作流需求。

Anthropic、OpenAI 和 Mistral 正在把产品线划分为旗舰级推理模型和低成本通用模型，因为客户不愿意为每一项任务都支付旗舰级模型的价格。《麦肯锡2025 AI现状》报告证实了这一趋势：AI的应用范围正在扩大，但真正实现规模化价值的企业很少。其中，中国大陆有45%的受访企业实现AI的规模化或全面部署，高于全球 38% 的均值，展现出在AI应用深度上的相对领先优势。CIO 现在关注的问题已不再是哪个模型更强，而是哪一种工作负载应该运行在哪个平台上，成本是多少，以及遵循哪种治理策略。

“下一个最佳行动”测试

以银行业一个典型场景为例：向客户提供“下一个最佳行动（Next Best Action）”推荐——即基于客户实时情境，在 App、网点或呼叫中心中，以毫秒级速度生成推荐内容。Cloudera合作的领先银行已经证明，这种深度个性化服务能力能够带来 5% 至 15% 的收入提升。与Cloudera合作的一家全球性银行推出的 AI 助手，在上线第一年就已处理超过 150 万次客户咨询。

然而，推理成本的现实压力不容忽视。一次智能体决策可能触发5 到 20 次模型调用，而每一次调用都带有各自的上下文窗口。在单轮演示中，每百万输入 token 成本从 0.5 美元与 3.3 美元之间的差异看似微不足道，但在数亿次客户交互中，这种差异足以决定一个功能究竟是会盈利，还是在悄无声息的持续烧钱。

近期研究显示，如果企业在所有任务中使用顶级高级模型，其推理成本的浪费高达40% 至 85%。例如，Decagon 将架构迁移至基于 NVIDIA Blackwell 的开源多模型技术栈后，其每次语音查询成本下降了 6 倍。“下一个最佳行动”已经不再是营销决策，而是一项单位经济学（unit economics）决策，并且是在每一次 token 路由过程中实时完成的。

主权正成为AI 战略核心

关于公有云与Private AI的争论已不再是意识形态之争，而是工作负载层面的现实选择。同时，地缘政治因素也被纳入讨论范畴。

欧盟《AI 法案》（EU AI Act）中关于高风险 AI 系统的规定将于 2026 年 8 月全面生效，违规罚款最高可达 3,500 万欧元或全球营业额7%的罚款。法国与德国也正逐步将国家级采购倾向于本国的Mistral AI 以及基于开放权重模型的主权 AI 技术栈。

亚洲的AI 监管格局则呈现出更加多元化的发展路径。新加坡的《 AI 治理框架》以及 IMDA 测试工具已成为该地区的范本；日本通过《 AI 推进法》在自愿性指导原则基础上增加了行业监管；韩国的《 AI 基本法》则要求高风险 AI 系统必须购买责任险。与此同时，印度在 2026 年 2 月 AI Impact Summit 上推出了本国主权大模型，并通过 IndiaAI Mission 计划投入 12.5 亿美元，其《数字个人数据保护法（DPDP Act）》也将持续推进至 2027 年。中国正在推动由国家主导的开源建设，同时也在不断推动相关法律法规和标准的建立。例如，由中国牵头立项的《生成式人工智能（885728）风险处理指南》国际标准目前已进入快速制定阶段。此外，印度尼西亚实施《个人数据保护法（PDP Law）》，澳大利亚则采取更务实的行业监管模式。在这样各具特色的 AI 环境中，96% 的亚太企业计划增加 AI 投入，且大多数将采用混合基础设施架构。单一云平台、单一司法辖区的AI 架构，如今已经成为一种结构性风险。

Cloudera 与 NVIDIA 在混合推理领域的合作，以及行业加速采用本地化 AI 部署以支持受监管工作负载，正是这一趋势的直接体现。

真正的护城河在模型之上

过去18 个月中，企业获得的深刻教训是：模型商品化并不会降低企业 AI 的复杂性，只是把复杂性转移到了其他区域。Mistral、DeepSeek 提供的开放权重模型虽然降低了实验成本，但协调、治理、评估和系统集成的复杂性却转移给了企业自身。

同样的趋势，如今也正在物理AI 与国防科技领域上演。Physical Intelligence、Figure AI 和Skild AI 正推动机器人基础模型进入工厂、物流中心与家庭。在这些场景中，低延迟、数据主权与数据驻留的重要性已经超过了模型跑分本身。李飞飞创立的 World Labs正在构建空间智能层（Spatial Intelligence），即具备 3D 感知与推理能力的世界模型，该模型将成为下一代工业数字孪生（885820）系统的基础。Palantir（PLTR）与 Anduril 则围绕一个核心假设建立了自己的商业版图，他们认为，真正持久的竞争优势并不在于模型本身，而在于控制平面（Control Plane）。

企业领导者应当衡量每项有效任务的单位经济成本、每一个智能体部署的运营负担，以及用于构建相关治理框架的推理成本占比。现实情况是，这个比例通常高达1:5，甚至更高。

银行、电信和制造业的的未来走向

AI 架构的第二次变革正在到来：亚二次复杂度注意力机制（Sub-Quadratic Attention）。来自DeepSeek、Google 与 Cartesia 的新方案，正在以数量级降低长上下文推理的成本。最近的基准测试显示，在保持一定精度的情况下，成本可降低 100 至 300 倍。

对于大型银行而言，这一变革意味着全资产组合风险建模、跨数十年的欺诈模式识别，以及跨司法辖区的KYC（了解你的客户）流程，都可以从过去依赖分块检索（Chunked Retrieval）的方式，转变为一次性推理完成。

对于电信运营商（884313）而言，智能体驱动的网络运维、预测性维护以及跨年度的客户旅程分析，在规模化实施时将在成本上更具备可行性。

对于制造企业而言，全工厂仿真和供应链中断预测也正从周期（883436）性批处理任务转变为持续性推理。

最终胜出的架构，不会是token 价格最便宜的，而是能够将算力部署在最靠近数据的位置、运行在正确司法辖区之下并具备治理能力的架构。可持续、主权、可控将成为 AI 时代的三个新标准。而围绕这些标准构建 AI 能力的企业，将定义未来十年的竞争格局。