Anthropic 扩大与 Google 和 Broadcom 的合作，发力下一代计算

Hero

#引言

通往通用人工智能（AGI）的竞赛，不仅是算法层面的较量，更是硬件与基础设施的终极考验。训练前沿模型需要难以估量的算力，而性能瓶颈已逐渐从单纯的每秒浮点运算次数（FLOPS）转移到内存带宽和网络互连上。

今天，Anthropic 宣布大幅扩展其与 Google Cloud 和 Broadcom 的战略合作伙伴关系。此次三方合作旨在共同设计和部署专为 Anthropic 独特的机器学习架构优化的下一代计算集群。对于关注 AI 领域的开发者和基础设施工程师而言，此次合作释放了一个关键信号：行业正在从使用现成的通用加速器，向深度集成的定制化硬件栈演进。

#发生了什么？

作为 Claude 系列大语言模型（LLM）背后的研究公司，Anthropic 承诺斥资数十亿美元，与 Google Cloud 展开一项为期多年的云基础设施扩建计划。更关键的是，Broadcom 作为基础合作伙伴进一步深化了参与度。

该协议保证了 Anthropic 能够优先获得 Google 即将推出的新一代张量处理单元（TPU）和定制化 AI 加速器。同时，Broadcom 将提供关键的高速网络 ASIC、硅光子技术以及先进的互连技术，从而将数十万个芯片连接成庞大的、同步的训练舱（Pod）。

虽然具体的财务细节尚未披露，但此次硬件部署的惊人规模预计将让 Anthropic 过去的训练集群相形见绌，使他们能够构建比 Claude 3.5 规模更大、能力更强的模型。

#为什么这很重要？

过去几年，AI 行业的硬件领域几乎被单一供应商垄断。尽管 NVIDIA 的 GPU 和 InfiniBand 网络已成为黄金标准，但巨大的需求也导致了供应链受限、成本高昂以及 AI 基础设施架构的同质化。

此次合作伙伴关系的扩展具有三个核心意义：

硬件多元化： 通过对 Google TPU 架构的大举投入，Anthropic 证明了训练前沿模型并非必须依赖传统 GPU。这种多元化对整个生态系统是健康的，并将对算力成本产生下行压力。
协同设计与垂直整合： Anthropic 现在的体量已经大到足以影响硬件路线图，不再需要被动地修改软件去适应硬件。Broadcom 和 Google 将量身定制网络拓扑和内存层级，以精准契合未来 Claude 模型所采用的混合专家（MoE）和注意力机制。
打破“网络墙”： 在分布式训练中，加速器有大量时间在等待来自其他节点的数据。Broadcom 的加入凸显了一个事实：AI 能力的下一次飞跃，瓶颈将是网络带宽，而不仅仅是原始算力。

#技术影响

要理解这项声明的分量，我们必须剖析现代 AI 训练集群的内部结构。训练万亿参数规模的模型，需要结合数据并行（DP）、张量并行（TP）和流水线并行（PP），将工作负载分配到成千上万个芯片上。

#互连瓶颈

当将巨大的矩阵乘法分割到多个芯片（张量并行）时，芯片必须近乎瞬间地交换中间结果。如果网络速度太慢，加速器就会处于空闲状态，白白浪费海量的能源和时间。

在这里，Broadcom 在高基数（high-radix）交换机（如 Tomahawk 系列）和高效的 SerDes（串行器/解串器）技术方面的专长至关重要。通过向硅光子技术转型——即机架之间使用光而非传统的铜缆传输数据——Broadcom 和 Google 能够大幅降低延迟，并提升带宽功耗比。

#TPU 与传统集群的对比

Google 的 TPU 建立在与标准 GPU 截然不同的基础架构之上。它们利用专为密集矩阵运算设计的矩阵乘法单元（MXU），并搭配定制的同步互连架构（通常是 3D 环面拓扑结构）。

特性	传统 GPU 集群（例如 H100）	下一代 TPU / Broadcom 训练舱（Pod）
核心架构	高度并行的流式多处理器	庞大的脉动阵列（MXU）
网络	通过独立网卡实现 InfiniBand / RoCE	集成的核间互连（ICI）与定制 Broadcom ASIC
拓扑结构	无阻塞胖树（Fat Tree）/ 叶脊（Spine-Leaf）	多维环面（Torus）/ 定制光网格
侧重点	通用加速计算	深度专精于同步张量运算

通过在 Google TPU pod 的边缘直接使用 Broadcom 的定制网络 ASIC，Anthropic 基本上可以将庞大的集群视为一个单一的超级加速器。这减少了大型 MoE 模型训练中常见的“通信税”，从而允许使用更大的批大小（batch size）和更高效的梯度同步。

#下一步是什么？

在短期内，这一基础设施将主要服务于 Anthropic 的内部研究团队。随着这些新的超大集群在 2026 年底陆续上线，我们可以期待 Claude 4 甚至可能是 Claude 5 世代模型的训练速度将大幅加快。

对于使用 Anthropic API 的开发者来说，硬件的转型可能会体现在以下两个方面：

更低延迟的推理： 为高效训练而协同设计的架构通常会催生出专门的推理硬件。预计流式应用的首字元时间（TTFT）会更快，吞吐量也会更高。
超大上下文窗口： Broadcom 的先进封装和光学互连技术提升了内存带宽，这将使处理海量上下文的成本显著降低，有可能将标准上下文窗口推向远超 100 万到 200 万 token 的级别。

#结论

Anthropic、Google Cloud 和 Broadcom 的合作堪称战略性基础设施工程的教科书级案例。随着模型规模突破万亿参数，采用现成硬件拼凑的方案已不再奏效。

通过将计算、定制硅片网络和模型架构深度融合，Anthropic 不仅仅是在购买服务器空间——他们正在打造一台专用的超级计算机。对于 Ichiban Tools 以及全球的开发者而言，这预示着一个 AI 能力将仅受物理与网络极限约束的未来，为更快速、更智能、更具性价比的 AI 工具铺平了道路。