Back to Blog

AnthropicがVerceptを買収:激化するコンピュータ操作AIエージェント開発競争

February 26, 2026by Ichiban Team
aianthropicverceptcomputer-useacquisitionsagents

Hero

#はじめに

AIの状況は、対話型インターフェースから行動指向のエージェントへと急速に移行しており、その主戦場は公式にデスクトップへと移った。劇的な展開として、Anthropicは「コンピュータ操作(computer-use)」AIに注力するスタートアップであるVerceptを買収した。この買収は、MetaがVerceptの共同創業者の一人を引き抜いた直後に行われており、特化型AI分野で現在激化している人材獲得競争を浮き彫りにしている。

開発者、ソフトウェアエンジニア、プロダクトビルダーにとって、これは単なる企業ドラマではない。基盤モデルが次に向かう先を示す、極めて重要な指標である。単にコードを生成するだけの大規模言語モデル(LLM)から、複雑なシステムインターフェースを自律的に操作し、デプロイやデバッグを実行できるシステムへの移行が進む中、こうした戦略的買収の背後にあるメカニズムを理解することは不可欠である。

#何が起きたのか

Verceptは過去1年で、AIエージェント分野のダークホースとして台頭した。複雑なグラフィカルユーザーインターフェース(GUI)を操作し、ウェブアプリケーションと連携し、異なるOSをまたいでマルチステップのワークフローを実行できる高度なモデルを構築していた。彼らのアプローチは、表面的なスクリーンスクレイピングにとどまらず、UI要素やシステム状態の深い意味的理解を伴うものだった。

しかし、Metaが主要な創業者の一人を採用したことで、このスタートアップの軌道は急変した。Anthropicは、残された専門人材や基盤技術が散逸したり、競合他社の手に渡ったりするのを防ぐため、迅速に会社全体を買収する動きに出た。

Anthropicにとって、コンピュータ操作AIは未知の領域ではない。最近、Claudeにコンピュータ操作機能を導入し、モデルが画面を見て、カーソルを動かし、ボタンをクリックし、テキストをネイティブに入力できるようにした。Verceptのチームを社内に取り込むことは、AnthropicがClaudeを究極のOSレベルのオペレーターに進化させ、競合に対するリードを確実に維持することに大きく注力していることを示している。

#なぜこれが重要なのか

なぜ巨大テック企業は、コンピュータ操作に特化したスタートアップを巡って血みどろの争いをしているのか。その答えは、現在のAPI駆動型アーキテクチャの根本的な限界にある。

歴史的に、既存のワークフローにAIを統合するには、専用のAPI接続、カスタムWebhookの統合、または高度に特化したプラグインが必要だった。このアプローチは脆く、維持コストが高く、ソフトウェアベンダーが明示的に公開しているエンドポイントに厳しく制限されることで知られている。

コンピュータ操作エージェントは、このボトルネックを完全に回避する。人間とまったく同じようにGUIを通じてソフトウェアを操作することで、AIは最新のAPIの有無にかかわらず、文字通りあらゆるアプリケーションを操作できるようになる。

  • 普遍的な互換性: 人間がクリックできるものなら、AIも自動化できる。これにより、企業に眠る数兆ドル規模の価値が解放される。
  • ワークフローの結合: エージェントは、ウェブブラウザ、ローカルのターミナル、独自仕様のスプレッドシート、レガシーなメールクライアントの間を、単一の一貫したワークフローとしてシームレスに行き来できる。
  • レガシーシステム: 最新のRESTやGraphQL APIを持たない、古くからあるオンプレミスのエンタープライズソフトウェアも、大規模な書き換えプロジェクトを必要とせずに完全に自動化可能になる。

Anthropicにとって、Verceptの技術は運用上の信頼性における重要な飛躍を意味する。現在のコンピュータ操作モデルは、時折「幻覚によるクリック(hallucinated clicks)」を起こしたり、無限スクロール、カスタムキャンバスレンダリング、ホバー表示されるドロップダウンなどの非常に動的なUI要素の操作に苦戦したりする。Verceptの特化したアーキテクチャは、まさにこれらの摩擦要因を解決することを目指している。

#技術的な影響

Anthropicが実際に何を買収したのかを理解するには、最新のコンピュータ操作エージェントのアーキテクチャの内部に目を向ける必要がある。テキストトークンを出力する標準的なLLMとは異なり、これらのシステムはVision-Language-Action(VLA)モデルである。

#アクション空間のナビゲーション

自律型エージェントが画面を見る際、ピクセルのグリッドを、操作可能な要素の意味的なインタラクティブマップに変換しなければならない。この複雑なパイプラインには、通常以下のプロセスが含まれる。

  1. 視覚ベースの解析: マルチモーダルモデルを使用し、生のスクリーンショットから直接、ボタン、入力フィールド、バウンディングボックス、テキストを特定する。
  2. アクセシビリティツリー(a11y): OSのアクセシビリティAPI(WindowsのUIAutomation、macOSのAccessibility API、LinuxのAT-SPIなど)に直接フックし、デスクトップアプリのDOMに相当する構造的な階層を理解する。
  3. 座標マッピング: ローカライズされたマウスクリックやドラッグイベントをトリガーするために必要な、正確なX、Yピクセル座標を計算する。

#Verceptがもたらす価値

AnthropicのClaudeモデルは画期的なコンピュータ操作機能を導入したが、初期のイテレーションはグリッドベースの視覚処理に大きく依存することが多かった。これは計算コストが高く、遅延が大きく、高DPIディスプレイではわずかな座標のずれを引き起こしやすい。

Verceptの独自のアプローチは、高度に最適化されたDOM/a11yツリーパーサーと、ローカライズされた視覚的コンテキストのキャッシュを組み合わせたハイブリッド方式であると報じられている。すべての細かなアクションのために4K画面全体を解析するのではなく、UIの状態を効率的にキャッシュし、差分(デルタ)の更新のみを処理する。

実行ロジックの違いを考えてみよう。

従来のAIコンピュータ操作パイプライン:

1. Capture full screen image.
2. Send image payload to VLA model.
3. Model predicts coordinates (x: 1042, y: 450).
4. OS moves mouse and executes click.
5. Wait for visual change, repeat from Step 1.

Verceptの最適化されたパイプライン:

1. Ingest initial OS accessibility tree + screen delta.
2. Map semantic intent ("Click Submit") to targeted Node ID.
3. Execute OS-level click event directly via API where possible.
4. Fallback to precise visual coordinates only if tree is missing.
5. Listen for asynchronous system UI change events to confirm success.

このハイブリッドアプローチは、エンタープライズ規模で自律型AIエージェントを展開する上で最大の障壁となる、ネットワーク遅延とトークン消費量を劇的に削減する。

#今後の展望

Anthropic、Meta、OpenAI、Google間の競争は猛烈なスピードで加速している。MetaがVerceptの創業者を引き抜いたことは、彼らが独自の競合するOSエージェントフレームワークを積極的に構築していることを強く示唆しており、今後数ヶ月のうちにオープンソースのLlamaエコシステムに深く統合される可能性が高い。

ソフトウェアエンジニア、フロントエンド開発者、UI/UXデザイナーにとって、このパラダイムシフトは全く新しい一連の専門的責任をもたらす。「エージェント対応(agent-ready)」のアプリケーションを構築することは、モバイル対応やクロスブラウザの互換性を確保することと同じくらい重要になるだろう。

AI主導のユーザー層に備えるため、開発者は直ちに以下の点に注力し始めるべきである。

  • セマンティックHTMLの習熟: AIエージェントは、ページ構造を理解するために標準的で予測可能なHTMLタグ(<button><nav><main>)に大きく依存する。JavaScriptのクリックハンドラをアタッチした汎用的な<div>タグに依存すると、エージェントのパフォーマンスは著しく低下する。
  • 堅牢なARIA実装: アクセシビリティ機能はもはや人間のユーザーだけのものではない。コンピュータ操作エージェントにとっての主要なAPIサーフェスに急速になりつつある。
  • 予測可能なUI状態: ユーザーの直接的な操作なしにレイアウトが頻繁に変わる、JavaScriptを多用した動的すぎるUIは、エージェントのワークフローを破壊し、タスクの失敗を引き起こす。

#おわりに

AnthropicによるVerceptの戦略的買収は、エージェントAIを巡る激化する戦争における、計算された積極的な一撃である。Metaは重要な基盤となる人材を引き抜くことに成功したが、Anthropicは基盤技術、運用パイプライン、そして残されたエンジニアリングチームを確保し、Claudeのすでに印象的なコンピュータ操作能力を大幅に強化することに成功した。

単にAIにコードを書くようプロンプトを投げる時代から、マシン上で直接作業を行うようAIに依頼する、魅力的で新しい時代へと私たちは急速に移行している。明日のプラットフォームを構築する開発者にとって、メッセージは間違いなく明確である。マシンはもはやインターネットを読むだけでなく、その上でどうクリックするかを積極的に学んでいるのだ。