Anthropic、次世代コンピューティングに向けてGoogleおよびBroadcomとのパートナーシップを拡大

#はじめに
汎用人工知能(AGI)に向けた開発競争は、アルゴリズムの課題であると同時に、ハードウェアとインフラストラクチャの課題でもある。フロンティアモデルのトレーニングには途方もない計算能力が必要であり、そのボトルネックは純粋なFLOPS(1秒あたりの浮動小数点演算回数)から、メモリ帯域幅やネットワークの相互接続(インターコネクト)へと移行しつつある。
本日、AnthropicはGoogle CloudおよびBroadcomとの戦略的パートナーシップの大幅な拡大を発表した。この3社間のコラボレーションは、Anthropic独自の機械学習アーキテクチャに特化して最適化された次世代コンピュートクラスターの共同設計と展開を目的としている。AI分野に注目する開発者やインフラエンジニアにとって、このパートナーシップは重要な進化を示すものだ。すなわち、市販のコモディティアクセラレータから、深く統合されたカスタムビルドのハードウェアスタックへの移行である。
#何が起きたのか?
大規模言語モデル(LLM)のClaudeファミリーを開発する研究企業であるAnthropicは、Google Cloudとの間で、数年間にわたる数十億ドル規模のクラウドインフラストラクチャ拡大に取り組むこととなった。ここで重要なのは、Broadcomが基盤パートナーとしてより深く関与することになった点である。
この契約により、AnthropicはGoogleの次世代Tensor Processing Unit(TPU)およびカスタムAIアクセラレータへの優先アクセスが保証される。一方、Broadcomは、数十万個のチップを巨大な同期トレーニングポッドへと結びつけるために不可欠な、高速ネットワーキングASIC、シリコンフォトニクス、そして高度なインターコネクト技術を提供する。
財務上の詳細な条件は明らかにされていないが、ハードウェア展開の規模はAnthropicの以前のトレーニングクラスターを凌駕すると予想され、Claude 3.5よりもはるかに大規模で高性能なモデルを構築できる立場を確立することになる。
#なぜ重要なのか
過去数年間、AI業界は単一のハードウェアベンダーによって圧倒的に支配されてきた。NVIDIAのGPUとInfiniBandネットワーキングが業界標準となった一方で、その莫大な需要はサプライチェーンの制約、法外なコスト、そしてAIインフラに対する画一的なアプローチをもたらした。
今回のパートナーシップ拡大が重要である理由は、主に以下の3点である。
- ハードウェアの多様化: AnthropicはGoogleのTPUアーキテクチャに多額の投資を行うことで、フロンティアモデルに従来のGPUが必須ではないことを証明している。この多様化はエコシステム全体にとって健全であり、コンピュート価格に対する下押し圧力となる。
- 共同設計と垂直統合: ソフトウェアをハードウェアに適合させるのではなく、Anthropicはハードウェアのロードマップに影響を与えられる規模に成長した。BroadcomとGoogleは、将来のClaudeモデルで採用されるMixture-of-Experts(MoE)やアテンションメカニズムに特化して適合するように、ネットワークトポロジーやメモリ階層を調整する。
- 「ネットワークの壁」の克服: 分散トレーニングにおいて、アクセラレータは他のノードからデータが到着するのを待つためにかなりの時間を費やす。Broadcomの参画は、AI機能の次の飛躍が純粋な計算能力だけでなく、ネットワーク帯域幅によって律速されることを浮き彫りにしている。
#技術的な影響
この発表の重大性を理解するには、最新のAIトレーニングクラスターの構造を調べる必要がある。1兆パラメータのモデルをトレーニングするには、データ並列(DP)、テンソル並列(TP)、パイプライン並列(PP)を組み合わせて、数万個のチップにワークロードを並列化することが求められる。
#インターコネクトのボトルネック
巨大な行列乗算を複数のチップに分割する場合(テンソル並列)、チップは中間結果をほぼ瞬時に交換しなければならない。ネットワークが遅いとアクセラレータはアイドル状態になり、膨大なエネルギーと時間を浪費することになる。
ここで重要になるのが、高基数スイッチ(Tomahawkファミリーなど)と高効率なSerDes(シリアライザ/デシリアライザ)技術におけるBroadcomの専門知識である。電気的な銅ケーブルではなく光を使ってラック間でデータを伝送するシリコンフォトニクスに移行することで、BroadcomとGoogleはレイテンシを大幅に削減し、電力あたりの帯域幅(帯域幅電力比)を向上させることができる。
#TPUと従来のクラスターの比較
GoogleのTPUは、標準的なGPUとは根本的に異なるアーキテクチャで構築されている。密行列演算に特化して設計されたMatrix Multiply Unit(MXU)を利用し、カスタムの同期インターコネクトアーキテクチャ(多くの場合、3次元トーラストポロジー)と組み合わされている。
| 機能 | 従来のGPUクラスター(例: H100) | 次世代TPU / Broadcomポッド |
|---|---|---|
| コアアーキテクチャ | 高並列ストリーミングマルチプロセッサ | 大規模シストリックアレイ(MXU) |
| ネットワーキング | 個別NICを介したInfiniBand / RoCE | 統合型Inter-Core Interconnect(ICI)とカスタムBroadcom ASIC |
| トポロジー | ノンブロッキングファットツリー / スパイン・リーフ | 多次元トーラス / カスタム光メッシュ |
| フォーカス | 汎用アクセラレーテッドコンピューティング | 同期テンソル演算への特化 |
Anthropicは、GoogleのTPUポッドのエッジでBroadcomのカスタムネットワーキングASICを直接活用することで、巨大なクラスターを実質的に単一の巨大なアクセラレータとして扱うことができる。これにより、大規模なMoEモデルのトレーニングで通常発生する「通信コスト」を削減し、より大きなバッチサイズとより効率的な勾配同期を可能にする。
#今後の展望
短期的には、このインフラストラクチャは主にAnthropicの社内研究チームに提供される。2026年後半にこれらの新しい巨大クラスターが稼働し始めると、Claude 4、さらにはClaude 5世代モデルのトレーニングが急速に加速することが予想される。
Anthropic APIを利用する開発者にとって、このハードウェアの移行は主に以下の2つの形で現れるだろう。
- 推論レイテンシの低下: 効率的なトレーニングのために共同設計されたアーキテクチャは、多くの場合、特化した推論ハードウェアを生み出す。Time-to-First-Token(TTFT)の短縮や、ストリーミングアプリケーションにおけるスループットの向上が期待できる。
- 巨大なコンテキストウィンドウ: Broadcomの高度なパッケージングと光インターコネクトによってもたらされるメモリ帯域幅の改善により、巨大なコンテキストを処理するためのコストが大幅に低下する。これにより、標準的なコンテキストウィンドウが100万〜200万トークンの壁を大きく超える可能性がある。
#結論
Anthropic、Google Cloud、およびBroadcomのパートナーシップは、戦略的インフラストラクチャエンジニアリングの模範である。モデルが1兆パラメータの壁を越えてスケールするにつれ、既存の市販ハードウェアを組み立てるアプローチではもはや不十分となっている。
コンピュート、カスタムシリコンのネットワーキング、そしてモデルアーキテクチャを深く統合することで、Anthropicは単にサーバースペースを購入するのではなく、専用のスーパーコンピューターを構築しているのである。Ichiban Toolsの開発者や世界中のエンジニアにとって、これはAIの能力が物理学とネットワーキングの限界によってのみ縛られる未来を示すものであり、より高速で、よりスマートで、費用対効果の高いAIユーティリティへの道を切り開くものだ。