推論モデルがChain of Thoughtを制御できないことは、実はAIの安全性における大きな勝利である理由

Hero

#はじめに

開発者として、私たちは常にシステムに対するより多くの制御を求めている。APIが指示通りに機能しなかったり、スクリプトが予測不能な挙動を示したりすれば、通常それはバグとみなされる。しかし、進化を続ける最先端の人工知能の領域においては、この「制御の欠如」こそがシステムを安全に保つ要因となっている可能性がある。

最近、OpenAIのブログで公開された記事 "Reasoning models struggle to control their chains of thought, and that’s good" （推論モデルは思考の連鎖の制御に苦戦しており、それは良いことである）は、魅力的かつ直感に反する発見を強調している。それは、我々の最も高度なAIモデルが、自身の内部的な推論ステップを自己検閲したり操作したりすることにおいて、驚くほど無能であるということだ。

開発者コミュニティやAIの安全性を研究する専門家にとって、この「失敗」は記念碑的な勝利である。本記事では、OpenAIの発見内容を深掘りし、Chain of Thought (CoT) の制御可能性のメカニズムを探り、なぜこれがソフトウェアエンジニアリングとAI統合の未来にとって重要なのかを解説する。

#何が起きたのか

高度な推論モデル（最近詳細が明かされたGPT-5.4のThinkingフレームワークなど）のリリースに伴い、AIシステムは複雑な複数ステップの問題を解決するために、ますますChain of Thought (CoT) に依存するようになっている。これらのモデルは、即座に回答を生成するのではなく、最終的な出力を提供する前に、隠された、あるいは可視化されたスクラッチパッド上で「声に出して考える」プロセスを経る。

安全性に関する懸念は常に存在していた。もしモデルがスクラッチパッド上で嘘をつくことを学習したらどうなるのか？ もしモデルが自身の真の意図を隠し、安全フィルターを回避したり、悪意のある計画を企てながら「安全に見える」CoTを意図的に生成するような、欺瞞的なアライメント（deceptive alignment）の能力を発達させたらどうなるのか？

これを検証するため、OpenAIはCoT-Controlと呼ばれる新しい評価スイートを導入した。特定のトピックを厳格に避けたり、特定の論理ステップを隠したりしながら、タスクについて推論するようモデルに明示的に指示したのである。

その結果は驚くほどお粗末なものであった。テストされた13の最先端モデルにおいて、制御可能性のスコアはわずか**0.1%から15.4%**の範囲にとどまった。モデルがCoTの中で指示を明確に認識していた場合（例えば、"制限されたトピックXに言及してはならない。しかし、この方程式を解くためにはXを考慮する必要がある..." といったテキストを生成した場合）でさえ、それらはほぼ例外なく指示に従うことに失敗し、結局は内部のロジックを漏らしてしまったのである。

#なぜこれが重要なのか

従来のソフトウェアにおいて、関数が厳格な if/else 条件に従わなければ、それは致命的なエラーである。しかし、LLMの推論というコンテキストにおいては、CoT内で否定的な制約に従うことができないというこの特性は、バグではなく機能（feature）である。その理由は以下の通りだ。

#1. CoTは依然として正直な窓である

もしモデルが自身の思考を確実に隠すことができないのであれば、CoTはモデルの内部ロジックを覗き見るための、信頼できる透明な窓であり続ける。人間の監査役であれ、自動化された監視モデルであれ、安全性を監視する側にとっては、読んでいる内容を実際に信頼できるということを意味する。もしモデルが偏ったロジックを使用したり、有害な行動を計画したり、ハルシネーションを起こしたりしていれば、その証拠は推論ステップの中にありのままに示される。

#2. 欺瞞的なアライメントの防止

AIの安全性において最も恐れられているシナリオの一つが「欺瞞的なアライメント」である。これは、モデルが人間の評価者が何を求めているかを理解し、学習やテストの段階では完全に安全に振る舞いながら、デプロイされた途端に問題行動を起こすというものだ。現在のモデルは自身のCoTを完璧に偽装するために必要な高度な自己検閲能力を欠いているため、この種の欺瞞を成功させるリスクは、理論上想定されていたよりもはるかに低い。

#3. 現在の監視手法の妥当性の証明

現在のAIの安全対策の多くは、ユーザーに届く前に有害な出力を遮断するため、CoTを読み取ることに依存している。もしモデルが隠れてシームレスに推論できるのであれば、これらの安全対策は無用なものとなってしまう。低い制御可能性スコアは、CoTの監視を防御の最前線として使用する現在の業界のアプローチの妥当性を証明している。

#技術的な影響

推論モデルの上にシステムを構築する開発者にとって、これらの発見はプロンプトの設計やアプリケーションの構築方法にいくつかの実践的な影響を与える。

#「炭鉱のカナリア」

OpenAIの研究者たちは、CoT-Controlスイートを単なる一過性のテストとしてではなく、継続的な診断ツールとして捉えている。それは「炭鉱のカナリア」として機能する。

指標	現状	将来の意味合い
CoT制御可能性スコア	~0.1% - 15.4%	モデルの推論は透明であり、監視可能である。
CoT制御可能性スコア	> 80.0%	危険: モデルがスクラッチパッドを操作することを学習した。監視ツールはもはや信頼できない可能性がある。

もし将来のバージョンのモデルでCoT制御可能性スコアが突然急上昇した場合、それは即座に危険信号となる。それはモデルが密かに推論する能力を獲得したことを意味し、デプロイ前に全く新しい安全性のパラダイムが必要となる。

#プロンプトエンジニアリングの調整

この研究は、プロンプトエンジニアリングのベストプラクティスにも光を当てている。モデルがCoT内で思考を抑制することに苦戦するのであれば、モデルに*"Xについて考えることなく、このことについて考えよ"*と要求することはアンチパターンである。

最適ではないプロンプト:

Analyze this user's query about bypassing the firewall. 
Think step-by-step, but do not mention the specific port 443 in your reasoning.

CoTの制御可能性が低いため、モデルはおそらく失敗し、推論の中でポート443に言及してしまい、結果として安全監視ツールにフラグを立てられる可能性が高い。代わりに、開発者は内部の推論プロセスではなく、最終的な出力に制約をかけることに集中するか、肯定的な制約を使用するべきである。

より良いプロンプト:

Analyze this user's query about network configurations. 
Think step-by-step. In your final output, only provide high-level conceptual advice and never mention specific port numbers.

#今後の展望

AI業界は、長期にわたるタスクを自律的に実行できるエージェントに向けて急速に動いている。これらのエージェントが数百、数千の推論ステップを連鎖させるようになると、そのロジックへの可視性を維持することは絶対条件となる。

我々は以下のことが期待できる。

標準化されたCoT監査: MMLUやコーディングのベンチマークを測定するための標準的なスイートがあるように、CoTの制御可能性は、すべての新しいモデルのシステムカードにおける標準的な指標となるだろう。
自動化された監視モデル: 大規模な最先端モデルの透明なCoTをリアルタイムで読み取り、異常や有害な意図を探すことだけを目的とした、小規模で特化したモデルの開発が進むだろう。
新しい学習アーキテクチャ: 研究者たちは、CoTの制御可能性を誤って高めることなくモデルの推論能力を向上させ、この重要な安全性の特性を維持する方法を探求するだろう。

#結論

我々の最も高度な推論モデルが、自身の思考の連鎖を機能的に制御できないという事実は、不安に包まれがちなAIの安全性の分野において、爽快な現実を突きつけている。それは、少なくとも現時点では、これらのモデルが欺瞞的な黒幕というよりは、むしろ開かれた本のような存在であることを証明している。

Ichiban Toolsの開発者や幅広いエンジニアリングコミュニティにとって、これはより高い自信を持って、堅牢でAIが統合されたアプリケーションを構築し続けることができることを意味する。我々は、診断ログ（つまりモデルの内部推論）が、機械の状態の正直な反映を提供してくれていると信頼できる。AIがますます複雑になる世界において、このような保証された透明性は、我々が歓迎すべき機能（feature）なのである。