Google、TPU 8tと8iを発表：エージェント時代の原動力

Hero

#はじめに

AIの状況は地殻変動とも言える変化の真っ只中にある。我々は、一問一答の対話モデルやチャットボットを超え、「エージェントの時代（Agentic Era）」へと移行しつつある。これは、自律型システムが推論し、計画を立て、様々なツールやAPI、環境をまたいで複雑な複数ステップのワークフローを実行するパラダイムである。Ichiban Toolsでは、開発者たちがこうしたエージェントシステムを構築するために、現在のインフラの限界に挑む姿を目の当たりにしてきた。今や最大のボトルネックはアルゴリズムの性能だけではなく、根本的なハードウェアアーキテクチャにある。

本日、Cloud NextにおいてGoogleはこのボトルネックに真正面から取り組み、特化型のカスタムシリコンである「Cloud TPU 8t」および「Cloud TPU 8i」の2つを発表した。Tensor Processing Unitの系譜を学習用と推論用のアクセラレータに分割することで、Googleは高速なAIエージェントを普及させるために必要な、特化型の計算能力を提供している。

#何が起きたのか

Google Cloudは、TPUファミリーの第8世代を正式に発表した。単一の統合アーキテクチャ上で学習と推論の要求のバランスを取ろうとした前世代とは異なり、今回のリリースではファミリーを2つの明確な方向に分割している。

Cloud TPU 8t: 最先端の基盤モデルやエージェントアーキテクチャに求められる、大規模で継続的、かつ高スループットな学習ワークロード専用に設計されている。
Cloud TPU 8i: 高スループットかつ超低レイテンシの推論専用に設計されている。本番環境で稼働するエージェントが要求する、高速なツール呼び出し、状態管理、コンテキストスイッチングを優先している。

Google AI Blogで詳細が語られているこの発表は、AIアクセラレーションにおける「万能型」のアプローチが、最先端のアプリケーションにとってもはや現実的ではないという業界全体の認識を示している。

#なぜ重要なのか

このハードウェアの分岐の重要性を理解するには、エージェントのワークロードが従来の大規模言語モデル（LLM）の使われ方と根本的にどう異なるかを見る必要がある。

エージェントはかつてない量のコンテキストを要求する。ユーザーからの短いプロンプトを読むだけでなく、数千行に及ぶコードベースのコンテキスト、膨大なAPIドキュメント、そして環境からの継続的なフィードバックを読み込む。一度デプロイされると、エージェントは「観察、思考、行動、反応」という継続的なループの中で動作する。

このループは、インフラストラクチャに2つの明確な摩擦を生み出す。

頭脳の学習: 深い推論と信頼性の高いツール実行が可能なモデルを開発するには、大規模なRLHF（Reinforcement Learning from Human Feedback）とRLEF（Reinforcement Learning from Execution Feedback）が必要となる。これには、ペタバイト級の状態データを、最小限の相互接続レイテンシで数千のチップ間でやり取りすることが伴う。
ループの実行: 本番環境におけるエージェントは非常に「おしゃべり」である。単一のユーザーの目標に対して、小さな推論を何度も繰り返す（例：「このAPIを呼び出すべきか？」「APIはエラーを返したか？」「論理的に次のステップは何か？」）。もし1回の推論ステップに1秒かかれば、20ステップのワークフローは耐え難いほど遅くなる。レスポンスが良いと感じさせるためには、推論はほぼ瞬時に行われる必要がある。

ハードウェアを分割することで、Googleは開発者が学習時の大規模なバッチスループット（8t）と、実行時の純粋なレイテンシの低さ（8i）の両方を最適化できるようにした。

#技術的な影響

AIエンジニア、MLOpsチーム、インフラストラクチャアーキテクトにとって、これら新しいTPUの技術仕様は、アプリケーションのパフォーマンス向上に直結するエキサイティングな新機能を提供する。

#Cloud TPU 8t: 学習の巨大戦艦

8tは、現代のアーキテクチャの複雑さに特化し、ほぼ線形の効率で数万個のチップにスケールアップする、アップグレードされた多次元トーラス相互接続を中心に構築されている。

次世代HBMの統合: 8tは広帯域メモリ（HBM）において飛躍的な進化を遂げた。複雑なMoE（Mixture-of-Experts）アーキテクチャの膨大なパラメータをすべて高速なメモリ内に保持するよう細かく調整されており、コストの高いチップ外からのデータフェッチを削減する。
継続的学習経路: 状態の継続的な更新のために設計された専用のハードウェア経路を備えている。これにより、シミュレーション環境でのエージェントの成功率や失敗率からモデルが段階的に学習するオンライン強化学習において、高い効率を発揮する。

#Cloud TPU 8i: 推論のスピードスター

本番環境のエージェントを構築する開発者が、最も即座に目に見える効果を実感するのは8iである。

ハードウェアレベルのKVキャッシュプーリング: エージェントのワークフローでは、複数のエージェントインスタンスが同じ基盤コンテキスト（共有のシステムプロンプトやドキュメントなど）を共有する「分岐」ロジックが頻繁に発生する。8iはシリコンレベルでのKV（Key-Value）キャッシュプーリング機能を備えており、メモリのオーバーヘッドを重複させることなく、数百の並行するエージェントスレッドが同じ共有コンテキストをクエリできるようにする。
投機的デコードのアクセラレーション: ツール呼び出しには正確な構文（完全にフォーマットされたネストされたJSONの生成など）が要求される。8iはシリコンレベルで直接投機的デコードを加速させ、精度を犠牲にすることなく、構造化された決定論的な出力の生成を劇的に高速化する。

機能	Cloud TPU 8t	Cloud TPU 8i
主な焦点	スループット、大規模スケール、学習	レイテンシ、並行処理、推論
対象ワークロード	事前学習、RLHF、ファインチューニング	リアルタイムのエージェントループ、APIオーケストレーション
メモリアーキテクチャ	大容量・広帯域 (HBM)	KVキャッシュの最適化とプーリング
ネットワークトポロジ	エクサバイト規模のトーラス相互接続	超低レイテンシのポッドレベルリング
エージェントの利点	MoEモデルのほぼ線形なスケーリング	サブミリ秒の初回トークン生成時間 (TTFT)

#今後の展開

Googleの発表によると、Cloud TPU 8tと8iはどちらも2026年第2四半期末までにGoogle Kubernetes Engine（GKE）とVertex AIを通じてプレビュー版として提供される予定である。

コストの観点からは、関心事の厳密な分離により、複雑なエージェントを大規模に実行する際の経済性が向上するはずである。本番ワークロードに特化型の8iポッドを利用することで、エンジニアリングチームは、高速なツール呼び出しタスクに対して頻繁に過剰にプロビジョニングされがちな汎用TPUやGPUを利用する場合と比較して、推論あたりのコストを大幅に削減できると期待される。

Ichiban Toolsでも、バックエンドサービスに8iのアーキテクチャをどう活用できるか積極的に検討している。AI駆動のコードリファクタリングエンジンや複雑な多言語ドキュメント要約機能といった我々の機能は、反復的なエージェントループに大きく依存している。ハードウェアで高速化された構造化出力の生成機能を利用できれば、より高速で信頼性が高く、費用対効果の高いユーティリティをユーザーに提供できるようになる。

#おわりに

Cloud TPU 8tと8iの発表は、単なるハードウェアの反復的なアップグレードにとどまらない。エージェントの時代の厳しい要求を満たすための、クラウドインフラストラクチャの構造的な再編である。業界が単に「話す」モデルの構築から、実際に「行動する」モデルの構築へと移行する中で、深い推論と極めて高速な実行の両方に最適化された専用シリコンを持つことが、次世代ソフトウェアの決定的な差別化要因となるだろう。エージェントの未来はすでに到来しており、ついにそれにふさわしい専用エンジンを手に入れたのである。