Back to Blog

Anthropic 扩大与 Google 和 Broadcom 的合作,发力下一代计算

April 7, 2026by Ichiban Team
anthropicgoogle cloudbroadcomai infrastructuretpunetworking

Hero

#引言

通往通用人工智能(AGI)的竞赛,不仅是算法层面的较量,更是硬件与基础设施的终极考验。训练前沿模型需要难以估量的算力,而性能瓶颈已逐渐从单纯的每秒浮点运算次数(FLOPS)转移到内存带宽和网络互连上。

今天,Anthropic 宣布大幅扩展其与 Google Cloud 和 Broadcom 的战略合作伙伴关系。此次三方合作旨在共同设计和部署专为 Anthropic 独特的机器学习架构优化的下一代计算集群。对于关注 AI 领域的开发者和基础设施工程师而言,此次合作释放了一个关键信号:行业正在从使用现成的通用加速器,向深度集成的定制化硬件栈演进。

#发生了什么?

作为 Claude 系列大语言模型(LLM)背后的研究公司,Anthropic 承诺斥资数十亿美元,与 Google Cloud 展开一项为期多年的云基础设施扩建计划。更关键的是,Broadcom 作为基础合作伙伴进一步深化了参与度。

该协议保证了 Anthropic 能够优先获得 Google 即将推出的新一代张量处理单元(TPU)和定制化 AI 加速器。同时,Broadcom 将提供关键的高速网络 ASIC、硅光子技术以及先进的互连技术,从而将数十万个芯片连接成庞大的、同步的训练舱(Pod)。

虽然具体的财务细节尚未披露,但此次硬件部署的惊人规模预计将让 Anthropic 过去的训练集群相形见绌,使他们能够构建比 Claude 3.5 规模更大、能力更强的模型。

#为什么这很重要?

过去几年,AI 行业的硬件领域几乎被单一供应商垄断。尽管 NVIDIA 的 GPU 和 InfiniBand 网络已成为黄金标准,但巨大的需求也导致了供应链受限、成本高昂以及 AI 基础设施架构的同质化。

此次合作伙伴关系的扩展具有三个核心意义:

  1. 硬件多元化: 通过对 Google TPU 架构的大举投入,Anthropic 证明了训练前沿模型并非必须依赖传统 GPU。这种多元化对整个生态系统是健康的,并将对算力成本产生下行压力。
  2. 协同设计与垂直整合: Anthropic 现在的体量已经大到足以影响硬件路线图,不再需要被动地修改软件去适应硬件。Broadcom 和 Google 将量身定制网络拓扑和内存层级,以精准契合未来 Claude 模型所采用的混合专家(MoE)和注意力机制。
  3. 打破“网络墙”: 在分布式训练中,加速器有大量时间在等待来自其他节点的数据。Broadcom 的加入凸显了一个事实:AI 能力的下一次飞跃,瓶颈将是网络带宽,而不仅仅是原始算力。

#技术影响

要理解这项声明的分量,我们必须剖析现代 AI 训练集群的内部结构。训练万亿参数规模的模型,需要结合数据并行(DP)、张量并行(TP)和流水线并行(PP),将工作负载分配到成千上万个芯片上。

#互连瓶颈

当将巨大的矩阵乘法分割到多个芯片(张量并行)时,芯片必须近乎瞬间地交换中间结果。如果网络速度太慢,加速器就会处于空闲状态,白白浪费海量的能源和时间。

在这里,Broadcom 在高基数(high-radix)交换机(如 Tomahawk 系列)和高效的 SerDes(串行器/解串器)技术方面的专长至关重要。通过向硅光子技术转型——即机架之间使用光而非传统的铜缆传输数据——Broadcom 和 Google 能够大幅降低延迟,并提升带宽功耗比。

#TPU 与传统集群的对比

Google 的 TPU 建立在与标准 GPU 截然不同的基础架构之上。它们利用专为密集矩阵运算设计的矩阵乘法单元(MXU),并搭配定制的同步互连架构(通常是 3D 环面拓扑结构)。

特性传统 GPU 集群(例如 H100)下一代 TPU / Broadcom 训练舱(Pod)
核心架构高度并行的流式多处理器庞大的脉动阵列(MXU)
网络通过独立网卡实现 InfiniBand / RoCE集成的核间互连(ICI)与定制 Broadcom ASIC
拓扑结构无阻塞胖树(Fat Tree)/ 叶脊(Spine-Leaf)多维环面(Torus)/ 定制光网格
侧重点通用加速计算深度专精于同步张量运算

通过在 Google TPU pod 的边缘直接使用 Broadcom 的定制网络 ASIC,Anthropic 基本上可以将庞大的集群视为一个单一的超级加速器。这减少了大型 MoE 模型训练中常见的“通信税”,从而允许使用更大的批大小(batch size)和更高效的梯度同步。

#下一步是什么?

在短期内,这一基础设施将主要服务于 Anthropic 的内部研究团队。随着这些新的超大集群在 2026 年底陆续上线,我们可以期待 Claude 4 甚至可能是 Claude 5 世代模型的训练速度将大幅加快。

对于使用 Anthropic API 的开发者来说,硬件的转型可能会体现在以下两个方面:

  • 更低延迟的推理: 为高效训练而协同设计的架构通常会催生出专门的推理硬件。预计流式应用的首字元时间(TTFT)会更快,吞吐量也会更高。
  • 超大上下文窗口: Broadcom 的先进封装和光学互连技术提升了内存带宽,这将使处理海量上下文的成本显著降低,有可能将标准上下文窗口推向远超 100 万到 200 万 token 的级别。

#结论

Anthropic、Google Cloud 和 Broadcom 的合作堪称战略性基础设施工程的教科书级案例。随着模型规模突破万亿参数,采用现成硬件拼凑的方案已不再奏效。

通过将计算、定制硅片网络和模型架构深度融合,Anthropic 不仅仅是在购买服务器空间——他们正在打造一台专用的超级计算机。对于 Ichiban Tools 以及全球的开发者而言,这预示着一个 AI 能力将仅受物理与网络极限约束的未来,为更快速、更智能、更具性价比的 AI 工具铺平了道路。