Nvidia、エージェンティックAIに特化したVera CPUを発表

これまでのAIハードウェアの歴史において、「GPUの計算能力が高ければ高いほど優れたAIである」という単一のシナリオが支配的であった。巨大な基盤モデルのトレーニングや並列化された推論処理において、それは真実である。しかし、パラダイムは急速に変化している。GTC 2026において、Nvidiaはこの変化を認識し、エージェンティックAIという非常に特殊なワークロードのためにゼロから設計された次世代プロセッサVera CPUを正式に発表した。
Ichiban Toolsで開発者向けユーティリティを構築している我々エンジニアは、AIエージェントが世界とどのように相互作用するかについて多くの時間を費やして考えている。今回の発表は、エージェンティック・パラダイムを大いに裏付けるものである。Nvidiaが発表した内容の全貌、それがAIハードウェア設計の根本的な転換を意味する理由、そしてソフトウェアエンジニアリングの未来に何を意味するのかを深掘りしていく。
#何が起きたのか
大成功を収めたGrace CPUアーキテクチャの後継となるVera CPUは、単なるスペックの底上げではない。根本的なアーキテクチャの再構築である。Grace CPUが主にデータに飢えたHopper GPUへデータを供給するために設計されたのに対し、Veraは自律的なロジックの主要な駆動源として位置づけられている。
Nvidiaは、Vera CPUを現代のAIファクトリーの「計算基盤(コンピュート・バックボーン)」として構想している。これは、より広範なVera Rubinプラットフォームの中核コンポーネントであり、Rubin GPUおよびBlueField-4 DPUとシームレスに連携し、数万の複雑なエージェント環境を同時に維持できるインフラストラクチャを構築するように設計されている。
#なぜ重要なのか:エージェントのボトルネック
Veraの必要性を理解するには、エージェンティックAIが従来の生成AIとどう違うのかを見る必要がある。
標準的な大規模言語モデル(LLM)にプロンプトを入力する際、ワークロードは高度に並列化された行列乗算であり、GPUにうってつけのタスクである。しかし、AIエージェントは単にテキストを生成するだけではない。エージェントは「思考」し、「行動」する。ワークフローのオーケストレーションフェーズを管理するために、高性能なCPUを必要とする。自律型エージェントのボトルネックは、これまでとは全く異なるのだ。
- ツールの実行: エージェントはPythonを書き、SQLクエリを実行し、ターミナル環境と対話し、外部APIを呼び出す。これらは直列的(シリアル)でシングルスレッドの処理であり、GPUでは処理が滞るが、高周波数で高度に最適化されたCPUコアでは威力を発揮する。
- 推論と計画: Chain-of-Thought(思考の連鎖)や強化学習パイプラインのようなマルチステップの推論パラダイムは、大量の分岐ロジックを必要とする。
- KVキャッシュの管理: ロングコンテキストの会話やマルチターンのエージェントワークフローは、膨大なKey-Value(KV)キャッシュを生成する。このキャッシュをシステムメモリ上で効率的に保存、検索、管理するには、かつてないほどのメモリ帯域幅が必要となる。
これらの極めて直列的で状態に依存する処理を専用プロセッサにオフロードすることで、システム全体として、GPUが本来苦手とするタスクに高価なGPUサイクルを占有されるのを防ぐことができる。
#技術的な影響
水面下では、Vera CPUは開発者にとって魅力的なアーキテクチャ上の決定をいくつか導入している。開発者やシステムエンジニアにとって最も影響の大きい仕様を分解してみよう。
| 仕様 | 詳細 | エージェントワークロードへの影響 |
|---|---|---|
| コア | 88個のカスタムOlympusコア (Armv9.2) | 個別のエージェント環境を分離するための大規模な並行処理能力。 |
| スレッディング | 空間的マルチスレッディング (Spatial Multithreading) | 1コアあたり2つのタスクを決定論的なレイテンシで実行。リアルタイムなエージェントの応答に不可欠。 |
| メモリ容量 | 最大 1.5 TB LPDDR5X | 巨大なコンテキストウィンドウをCPU上で直接キャッシュ可能。 |
| 帯域幅 | 1.2 TB/s | Graceの2倍の帯域幅。高速なツール使用時のデータ枯渇を事実上排除。 |
| インターコネクト | NVLink-C2C (1.8 TB/s) | Rubin GPUとのシームレスでコヒーレントなメモリ共有。 |
#空間的マルチスレッディングとOlympusコア
88個のカスタム設計されたOlympusコアの導入は、重要なマイルストーンである。これらのArmv9.2互換コアは、Nvidiaが**空間的マルチスレッディング(Spatial Multithreading)**と呼ぶ新しい技術を利用している。スレッドが実行ユニットを競い合うためレイテンシが変動する可能性のある従来の同時マルチスレッディング(SMT)とは異なり、空間的マルチスレッディングは予測可能で決定論的なレイテンシを保証する。エージェントが重要なシステムコマンドを実行したり、APIのペイロードを待機したりする際、決定論的なレイテンシは、数千ステップの自律タスクにわたって蓄積しうる微小な遅延を防ぐ。
#かつてないメモリ帯域幅
エージェンティックなワークロードにおいて、メモリ帯域幅はしばしば静かなるボトルネックとなる。Veraは、驚異的な1.2 TB/sで動作する最大1.5 TBのLPDDR5Xメモリを誇る。これによりCPUはローカルに巨大なKVキャッシュを保持でき、CPUとGPUの間で常にコンテキストをシャッフルする必要性を低減する。結果として、従来のラックスケールCPUと比較してエージェントワークロードで50%という驚異的なパフォーマンス向上を実現すると同時に、2倍の電力あたりのパフォーマンスを提供する。
#次の展開:Vera CPUラック
Nvidiaは単一のチップを販売しているわけではない。ラックスケールのインフラストラクチャを販売しているのだ。液冷式のVera CPUラックは、256個のVera CPUを単一のデプロイメントに統合する。Nvidiaによれば、このインフラストラクチャは22,500以上のCPU環境を同時に維持できるという。
エンタープライズアプリケーションにとって、これはまさに聖杯である。単一のラックで、高度に分離された決定論的な環境内で完全に独立して動作する、ソフトウェアエンジニア、データアナリスト、カスタマーサポートエージェントなどの自律型エージェントの大規模なフリートをホストできることを意味する。
#結論
Vera CPUの発表は、ハードウェア業界が受動的なAIアシスタントから能動的なAIエージェントへの移行を認識していることの明確なシグナルである。ツール実行、分岐ロジック、および大規模なKVキャッシュ管理に特化したアーキテクチャを構築することで、Nvidiaはエージェント時代に差し迫っていた計算リソースのボトルネックを解決した。
開発者向けのツールやユーティリティを構築している我々にとって、Vera CPUはより複雑で、自律的で、信頼性の高いソフトウェアを構築するために必要なハードウェア基盤を提供する。GPUは今後もAI革命のエンジンであり続けるだろうが、VeraによってNvidiaは正式にステアリングホイールを作り上げたのである。