Mercury 2: 拡散モデルを活用した最速の推論LLM

#はじめに
過去10年の大半において、人工知能の領域は自己回帰型のTransformerという単一の巨大なアーキテクチャに支配されてきた。GPT-2からOpenAIのo3のような最新の推論モデルに至るまで、基本的な生成メカニズムはほぼ同一であり、次のトークンを1ステップずつ離散的に予測するというものだ。これは間違いなく強力であるが、左から右へと順次生成するプロセスは、特に複雑な思考の連鎖(CoT: Chain-of-Thought)による推論を実行する際に、避けられないレイテンシのボトルネックを生み出す。
今日、そのパラダイムが転換する。Inception Labsは、完全に拡散モデル(Diffusion Model)をベースとし、世界最速の推論LLMと銘打たれたMercury 2の発表により、現状を打破した。これは、モデルがどのように「思考」し、テキストを生成するかという点において、大きな飛躍である。
#何が起きたのか
今朝発表され、瞬く間にHacker Newsのトップに躍り出たMercury 2は、標準的なトークン生成からの根本的な脱却を示している。Inception Labsは、MidjourneyやStable Diffusionのような画像生成AIの背後にある数学的原理である連続的な拡散プロセスを、自然言語推論という離散的な領域に適用することに成功した。
Mercury 2は、先行する単語に基づいて次の単語を予測するのではなく、トークンを連続的な潜在空間(Latent space)に埋め込む。そして、シーケンス全体に対して同時にノイズ除去(デノイズ)プロセスを適用する。つまり、思考プロセスを単語ごとに書き出すのではなく、論理構造全体を一度に評価し、ノイズの塊を、一貫性のある高精度な推論経路と最終的な回答へと洗練させる。これにかかる時間は、従来のモデルのほんの一瞬である。
#なぜ重要なのか
レイテンシ、ユーザー体験(UX)、そしてアプリケーション開発への影響は計り知れない。
従来の自己回帰モデルでは、50トークンの回答を出力する前にプロンプトが内部推論として2,000トークンを必要とする場合、ユーザー(またはシステム)は2,000トークンすべてが順次生成されるのを待たなければならない。メモリ帯域幅と計算リソースは、シーケンス長に比例して消費される。
Mercury 2は、この前提を根本から覆す。並列的な反復プロセスを活用することで、必要な論理の深さに関わらず、ほぼ一定の拡散ステップ数で最終的な推論結果に収束する。
これにより、Time-to-First-Token(TTFT)と全体の生成レイテンシが大幅に削減される。音声エージェント、即時コードレビューツール、動的UIジェネレータなどのリアルタイムアプリケーションを構築する開発者にとって、これは忌まわしい「思考中...」のスピナーを排除することを意味する。これまで広範なCoTモデルを展開することが不可能であったり、経済的に見合わなかったりしたレイテンシに敏感な環境において、深い推論の力をもたらすのである。
#技術的な影響
Mercury 2の背後にあるエンジニアリングを真に理解するには、拡散モデルがどのようにテキストを処理するのか、その内部構造を見る必要がある。
#1. 連続的な潜在空間への投影
標準的な言語モデルは、離散的な語彙の上で動作する。単語を表す離散的な整数を簡単に「拡散」させることはできない。Mercury 2は、離散的なトークンを高次元の連続的な潜在空間に投影することで、この問題を解決している。ノイズを追加し、それを逆転させるようにニューラルネットワークを訓練するという拡散プロセスは、完全にこの連続領域内で実行され、その後、最終的な潜在ベクトルを人間が読めるテキストに再投影する。
#2. 並列デノイズと逐次デコードの比較
このアーキテクチャの転換は、中核となる生成ループを見れば一目瞭然である。
# Pseudo-code comparison of generation logic
# Traditional Autoregressive (Slow, O(N))
def generate_autoregressive(prompt, max_tokens):
context = prompt
for _ in range(max_tokens):
next_token = model.forward(context)
context += next_token
return context
# Mercury 2 Diffusion (Fast, O(Steps) where Steps << N)
def generate_diffusion(prompt, steps=20):
latent_sequence = generate_pure_noise()
for step in reversed(range(steps)):
latent_sequence = model.denoise(latent_sequence, prompt, step)
return project_to_text(latent_sequence)
コードが示すように、自己回帰の生成ループはトークン数($N$)に縛られている。一方、Mercury 2のループはデノイズのステップ数に縛られており、これは出力シーケンス長から完全に切り離されている。
#3. 潜在的Chain-of-Thought (Latent CoT)
おそらく最もエキサイティングな技術的ブレイクスルーは「Latent CoT」だろう。Mercury 2は連続空間で動作するため、その中間的な推論ステップを、人間が読める英語のトークンにマッピングする必要がない。抽象的な概念ベクトルを操作し、最終的な投影ステップに至るまで、文法、構文、フォーマットに計算リソースを浪費することなく、最適な論理経路を見つけ出すことができる。
| アーキテクチャ | 生成戦略 | 時間計算量 | 推論媒体 |
|---|---|---|---|
| 自己回帰型 (例: o3) | 逐次処理、左から右へ | $O(N)$ トークン | 明示的トークンによるCoT |
| 拡散モデル (Mercury 2) | 並列処理、反復的デノイズ | $O(K)$ ステップ ($K \ll N$) | 連続的なLatent CoT |
#今後の展望
Mercury 2のリリースは、AIコミュニティにとっての転換点である。自己回帰型のTransformerだけが高度な推論に向けた唯一の実行可能な道ではないことを証明し、間違いなく、主要なAIラボの間で競合する拡散ベースのテキストモデルを開発する開発競争の引き金となるだろう。
我々Ichiban Toolsでも、Mercuryクラスのモデルを開発者向けユーティリティに統合する方法をすでに模索している。数分ではなく、わずか数ミリ秒で、深く推論されたアーキテクチャの提案やプルリクエストのレビューが即座に返ってくる世界を想像してみてほしい。また、オープンソースコミュニティもこのアーキテクチャの再現に迅速に取り組み、コンシューマ向けハードウェアで効率的に動作する、より小型で超高速なローカル推論モデルが誕生する可能性があると考えている。
#おわりに
Mercury 2は、単なる新しいモデルのリリースではなく、根本的なアーキテクチャの転換である。現代のLLMが持つ深い推論能力と、拡散モデルの並列生成速度を融合させることで、Inception Labsは次世代の人工知能の片鱗を我々に見せてくれた。モデルがトークンごとに思考をゆっくりと打ち出すのを待つ時代は終わりを告げようとしている。瞬時かつ全体的な推論の時代が、ついに到来したのである。