Gemini 3.5: エージェント型アクション時代の幕開け

Hero

ここ数年、ソフトウェアエンジニアリング界隈は「生成」というタスクに完全に釘付けになっていた。LLMにプロンプトを与えてコードを書かせたり、テキストを生成させたり、ログを要約させたりするための高度なパイプラインが次々と構築されてきた。しかし、複雑なLangChainの実装や、壊れやすい独自の実行ループと格闘した経験のあるシニアエンジニアなら誰もが同意するだろうが、「テキストを生成すること」と「実際のタスクを完了させること」は全くの別物である。

本日Googleが発表したGemini 3.5: frontier intelligence with actionは、事実上そのギャップを埋めるものだ。今回のリリースは、単なるパラメータの増加やコンテキストウィンドウの微増ではない。ネイティブなエージェント的振る舞いへと向かう、アーキテクチャの根本的な転換である。

我々Ichiban Toolsのチームは、開発者の時間を節約するためのユーティリティ開発に日々取り組んでおり、LLMをワークフローの奥深くまで組み込んできた。Gemini 3.5の登場により、パラダイムは「我々がAIをオーケストレーションする」ことから「AIがワークフローをオーケストレーションする」ことへと明確にシフトする。

#何が起きたのか

Googleは「行動を伴う知能（intelligence with action）」を強調し、Gemini 3.5ファミリーを発表した。Gemini 1.5 Proなどの以前のバージョンでも、巨大なコンテキストウィンドウと驚異的なマルチモーダル機能が導入されていたが、実行状態の管理は依然として開発者側に大きく依存していた。モデルがデータベースを検索し、ファイルを読み込み、意思決定を行う必要がある場合、アプリケーション側のコードで一つ一つの関数呼び出しを処理し、JSONをパースし、コンテキストを反復的にモデルへ返し続ける必要があった。

Gemini 3.5では、モデル内部に実行エンジンが導入された。これにより、モデルは長期的な視点に立った計画や、自律的なツール利用が可能になった。今回の発表における主要な機能は以下の通りだ。

ネイティブなマルチステップのツールオーケストレーション: モデルはツールを呼び出し、その結果を評価して次のステップを決定できる。ステップごとにホストアプリケーションへ制御を戻す必要はない。
アクション指向のコンテキストキャッシュ: 「アクションループ」の間、状態はモデル内部で保持される。これにより、複雑でマルチターンなエージェント型ワークフローにおけるレイテンシとトークンのオーバーヘッドが劇的に削減される。
強化された障害復旧機能: ツールの呼び出しが失敗した場合（例: APIが404を返したり、シェルコマンドで構文エラーが発生した場合など）、人間のエンジニアがそうするように、エラーを自律的に読み取り、パラメータを調整して再試行するようにGemini 3.5は学習されている。

#なぜこれが重要なのか

開発者向けツールや社内プラットフォームを構築しているエンジニアなら、脆いAIワークフローの辛さをよくご存知だろう。モデルにタスクの実行を指示し、一連の関数群を渡し、あとはモデルが必須パラメータをハルシネーション（幻覚）しないことや、API呼び出しの失敗による無限ループに陥らないことをただ祈るしかない。

Gemini 3.5は、エージェント型ソフトウェア構築の経済性を根本から変える。「ReAct（推論と行動）」のループをモデルのネイティブ機能に直接組み込むことで、開発者は何千行にも及ぶオーケストレーションのためのコードを削ぎ落とすことができる。

これは、信頼性の向上、レイテンシの低下、そしてAIのループのお守りに費やすエンジニアリング時間の削減を意味する。我々は初めて、「このディレクトリをリファクタリングして、新しいロギングライブラリを使うようにして」といった高レベルな目標を自信を持って委譲し、ファイルの検索、編集、リンターの実行、そしてその後に発生する構文エラーの修正といった細かな意思決定を、すべてモデルに一任できるようになるのだ。

#技術的な影響

アーキテクチャの観点から見ると、Gemini 3.5の採用はAPIとのインターフェースのあり方を再考させる。考慮すべき技術的なシフトをいくつか見ていこう。

#1. 高レベルな宣言的機能の提供

考えうるすべての最小単位のアクションに対して細かな関数を定義する代わりに、より広範な権限をGemini 3.5に与えることができるようになった。APIには、安全にサンドボックス化できるネイティブサポート環境（ファイルシステムへのアクセスやシェル実行など）が導入されている。

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });

// The new agentic paradigm
const response = await ai.models.executeTask({
  model: 'gemini-3.5-pro',
  objective: 'Migrate the legacy CSS files in /styles to Tailwind classes in the React components.',
  sandbox: {
    type: 'local_container',
    permissions: ['read_write_workspace', 'run_tests']
  },
  config: {
    maxAutonomousTurns: 15,
    onRequiresApproval: (plan) => console.log("Approval needed for:", plan)
  }
});

// The response contains the full trail of actions taken, not just text.
console.table(response.actionTrail);

#2. トークンのラウンドトリップの劇的な削減

これまで、5つのステップからなるアクションを実行するには、推論エンドポイントに対して5回の独立したHTTPリクエストを行い、その度に蓄積された巨大なコンテキストウィンドウを送信する必要があった。Gemini 3.5のステートフルな実行では、リクエストは「1回」で済む。モデルは中間の推論ステップを内部で処理し、最終結果のみを返す（あるいは承認が必要な境界に達した場合に処理を一時停止する）。これはコストとレイテンシの面で絶大なメリットをもたらす。

#3. 決定論的なフォールバック

今回のリリースで詳述されている最も印象的な技術的偉業の一つは、モデルがシームレスに決定論的なフォールバックに移行できる能力である。目的が曖昧すぎる場合、Gemini 3.5は推測で突き進んで状態を破壊するのではなく、的を絞った明確化のための質問を自動的に生成する。

#Ichiban Toolsの今後の展開

我々はすでにアーリーアクセスのエンドポイントを使って実験を進めている。近日中に、Ichiban Toolsの全エコシステムにGemini 3.5が深く統合されることを期待してほしい。

CLIの強化: 我々のCLIツールは、シングルターンのアシスタントから自律型エージェントへと進化する。「Webpackのビルド失敗を診断して修正して」とCLIに頼むだけで、ログの調査、設定の調整、修正の検証までを完全に自動で行うようになる。
よりスマートなエディタ: PDF、オーディオ、ビデオの各ワークフローでマクロコマンドがサポートされる。10種類ものフィルタや編集を手作業で適用する代わりに、「音量を正規化し、無音部分をカットして、チャプターマーカーを生成して」といった高レベルな指示を出すだけで、その実行を見守ることができるようになる。

#結論

Gemini 3.5のリリースは、エージェント時代の号砲である。我々は、AIを対話型の目新しいオモチャや単なるオートコンプリートのエンジンとして扱うフェーズを通り過ぎようとしている。今やAIは、自ら行動を起こし、障害から立ち直り、タスクを最後までやり遂げることができるシステムとして、エンジニアリングのライフサイクルに積極的に参加する存在となった。

定型的なAIオーケストレーターのコードを書くのはもう終わりにして、真のツールを作り始めるときだ。新たなフロンティアは開かれている。さあ、仕事に取り掛かろう。