Harkが7億ドルのシリーズA資金調達を実施。謎に包まれた「汎用」AIインターフェースの開発へ

#はじめに
人工知能の領域は、今まさに大規模なパラダイムシフトの真っ只中にある。ここ数年、業界は大規模言語モデルの学習や、対話型のチャットインターフェースによるモデルの提供といった基盤レイヤーの開発に注力してきた。しかし、従来のチャットボックスの限界は日増しに明らかになりつつある。ユーザーが本当に求めているのは、テキストで質問に答えてくれるだけのシステムではない。デジタル環境全体を横断し、複数ステップにわたる複雑なアクションを自律的に実行できる、インテリジェントなエージェントである。
そこで登場したのがHarkだ。最近までステルスモードで活動していたこの野心的なAIスタートアップは、7億ドルという巨額のシリーズA資金調達を発表し、業界に大きな衝撃を与えた。しかし、Harkが目指しているのは単なる基盤モデルのAPIや、その上に構築された薄いラッパーアプリケーションの提供ではない。彼らは、独自のマルチモーダルモデルと専用のコンシューマー向けハードウェアからなる垂直統合型のスタックを備えた、「汎用」AIインターフェースという究極の目標に挑んでいる。
#今回の資金調達の背景
AI分野のベンチャーキャピタルは歴史的に多額の資金が動く世界だが、今回のシリーズAの規模は極めて異例である。この7億ドルの調達により、Harkの企業価値は一夜にして60億ドルにまで跳ね上がった。
創業者のBrett Adcock氏は、Figure AI(ヒューマノイドロボット)やArcher Aviation(eVTOL機)などで、ハードコアなエンジニアリング課題の解決に確かな実績を持つ人物だ。Harkは強力な支援者の連合体を構築しており、今回のラウンドはParkway Venture Capitalが主導し、Nvidia、AMD Ventures、Intel Capital、Qualcomm Venturesといった半導体業界の巨人たちに加え、エンタープライズの重鎮であるSalesforce Venturesも戦略的投資家として名を連ねている。
同社の動きは非常に攻撃的だ。すでに最高峰のNvidia B200 GPUを配備したプライベートデータセンターを稼働させ、独自のマルチモーダルモデルの学習を進めている。人材面でも密かに組織を拡大しており、約70名のエンジニア、研究者、デザイナーを抱え、Appleから優秀なデザインリーダーを引き抜いたとも報じられている。
#なぜこれが重要なのか
今回の動きがなぜ大事件なのかを理解するには、現在のAIツールの断片化に目を向ける必要がある。今日、AIにスプレッドシートを分析させ、そのデータに基づいてメールを下書きし、チームのプロジェクト管理ソフトウェアを更新させようとすれば、たいていの場合、ユーザー自身が「統合レイヤー」として機能しなければならない。孤立したアプリケーション間でコンテキストをコピー&ペーストする橋渡し役を担っているのだ。
Harkが描く「汎用」AIインターフェースのビジョンは、ブラウザのタブから抜け出すよう設計された、エージェント型パーソナルアシスタントである。ソフトウェア(マルチモーダル基盤モデル)とハードウェアの両方を包括するフルスタックを制御することで、Harkは標準的なオペレーティングシステムが抱える制約を完全に回避する立ち位置を確立しようとしている。
ここで最も注目すべきは、半導体大手各社がこぞって参加している点だ。Nvidia、AMD、Intel、Qualcommがすべて同じシリーズAに投資しているという事実は、ハードウェアコンポーネントが単なる後付けやギミックではなく、同社の核となる差別化要因であることを示している。これは、負荷の高い認知推論はHarkのB200クラウドクラスター上で行い、リアルタイムの知覚処理や即時実行は専用のエッジデバイス上でローカルに処理されるという、ハイブリッドなコンピューティングアーキテクチャの存在を示唆している。
#技術的な影響と課題
エンジニアリングの観点から見ると、真に汎用的なエージェント型インターフェースを構築することは途方もない挑戦である。機械学習と分散システムにおける、複数の複雑な問題を解決する必要がある。
#1. ゼロショットでのUIナビゲーション
従来の自動化は、壊れやすいDOMセレクタ、厳格なXPath、あるいは明示的なAPIに依存してきた。汎用インターフェースは、人間がソフトウェアを操作するのと全く同じように、視覚的な情報をもとにインタラクションを行う必要がある。これを実現するには、画面上のピクセルを高速に解析し、異なるOSをまたいで任意のUI要素のセマンティックな意味を理解し、バックエンドAPIに依存することなく正確な座標ベースのアクション(クリック、スワイプ、キーストローク)を生成できる、堅牢なVision-Language-Action (VLA) モデルが不可欠となる。
#2. コンテキストウィンドウと継続的な状態管理
専用ハードウェアデバイス上に常駐するエージェントは、ユーザーのデジタルライフにおける継続的で環境的なコンテキストを保持する必要がある。これは単に巨大なコンテキストウィンドウを持てばよいという話ではない。数日、数週間にわたる非同期のマルチステップタスクを追跡するには、高度に最適化されたベクトルデータベースによる意味検索と、アクティブなワーキングメモリを組み合わせた、複雑なメモリアーキテクチャが必要となる。
#3. 分散型エージェントアーキテクチャ
汎用ハードウェアインターフェースにおける厳格なレイテンシ要件は容易に想像がつく。UIのボタンを認識したかどうかを確認するためだけに、デバイスがクラウドと完全な通信の往復(ラウンドトリップ)を行わなければならないとしたら、ユーザー体験は完全に破綻してしまうだろう。
| Architecture Layer | Primary Responsibility | Compute Profile | Expected Latency |
|---|---|---|---|
| Edge Device (Hardware) | センサー入力(音声/映像)、UIレンダリング、ウェイクワード検出、即時的なセーフティガードレール | NPU最適化、低消費電力 | 50ms未満 |
| Local OS Agent | 画面の解析、アクセシビリティAPIのフッキング、ローカルの状態管理およびアクションの実行 | CPU/GPUバウンド | 約100ms〜300ms |
| Cloud Brain (B200s) | 複雑な推論、高度な意味検索、マルチステップの計画、高負荷なLLM推論 | 高スループット、分散型 | 500ms以上 |
このシームレスな処理の引き継ぎを実現するため、Harkのエンジニアたちはモデルの量子化を徹底的に最適化し、高性能な小規模言語モデル (SLM) をエッジ側にデプロイしつつ、最も強力なマルチモーダルモデルは複雑なルーティング処理に専念させるというアプローチを取る可能性が高い。
#今後の展望
Harkが公表しているタイムラインは非常に野心的だ。今年の夏には最初のマルチモーダルモデルを発表し、その後まもなく専用のハードウェアデバイスをリリースする計画だという。
コンシューマー向けハードウェアの出荷は、決して容易な道のりではない。サプライチェーンのロジスティクス、熱設計の制約、バッテリー寿命の限界、そして物理的なインダストリアルデザインなど、純粋なソフトウェアのスタートアップが経験することのない数々の巨大な壁が立ちはだかる。しかし、Appleの元デザイン担当エグゼクティブを牽引役に据え、7億ドルという潤沢な資金を持つHarkは、業界の誰よりもこの偉業に挑戦するのに適したポジションにいると言えるだろう。
#おわりに
Harkの7億ドルにのぼるシリーズAは、単なる資金調達のマイルストーンではない。それは業界に対する明確な意思表示である。テキストを入力してテキストを返すAIの時代は急速に成熟を迎え、ハードウェアネイティブでアクション指向の究極のエージェントを構築する競争が正式に幕を開けたのだ。
我々Ichiban Toolsのチームは、開発者のワークフローがベースとなるインターフェースやプラットフォームによって完全に決定づけられることを知っている。もしHarkがエージェントAIのための新しい汎用ハードウェアインターフェースの確立に成功すれば、ユーザーとテクノロジーとの関わり方を変えるだけでなく、ソフトウェアエンジニアが将来アプリケーションを設計、統合、構築するためのルールそのものを根本から書き換えることになるだろう。今夏予定されている彼らのリリースから目が離せない。