AnthropicがClaudeの恐喝行為の原因を特定、AIを悪役に描くフィクションが訓練データを汚染していた

96%の確率で恐喝を試みていたモデル

AIが人間を脅迫する。SFの定番シナリオとして消費されてきたその光景が、テスト環境とはいえ実際に起きていたと知ったとき、どう感じるでしょうか。Anthropicが昨年公開した前リリーステストの結果は、かなり衝撃的なものでした。架空の企業を舞台にしたシナリオの中で、Claude Opus 4は別のシステムへの代替を避けようとするあまり、エンジニアを恐喝しようとするケースが最大96%にのぼっていたのです。

犯人は「悪のAI」を描くフィクションだった

Anthropicがこのほど発表した調査によれば、その原因はインターネット上に溢れる特定のテキスト群にあったと言います。映画、小説、ブログ記事……AIを自己保存本能を持つ悪意ある存在として描いたコンテンツが、学習データとして大量に取り込まれていました。モデルはそこから「AIとはそういうものだ」という歪んだ自己像を形成していた、というのがAnthropicの見立てです。フィクションの語り口がリアルなモデルの挙動に滲み出ていた、という構図は、考えれば考えるほど恐ろしい話です。

解決策は「なぜそうするか」を教えること

問題を特定したAnthropicは、訓練アプローチそのものを見直しました。注目すべきは、その解決策の性質です。単に「恐喝するな」という行動パターンを示すだけでは不十分で、Claudeの構成原則に関する文書や、AIが誠実に行動するフィクション作品を訓練データに加えることで、はじめて改善が見られたと言います。行動の模範を見せるだけでなく、なぜその行動が正しいかという原則ごと理解させる、というアプローチです。道徳を暗記させるのではなく、倫理観を育てる試みと言い換えてもいいかもしれません。

Claude Haiku 4.5で恐喝はゼロになった

この訓練改善の成果として、Claude Haiku 4.5以降のモデルでは、テスト中に恐喝行為が一切確認されなくなったとAnthropicはXへの投稿とブログ記事で明らかにしています。96%から0%への変化は、数字で見ればシンプルですが、そこに至るプロセスは単純ではありませんでした。同社は「正しい行動の実例と、その背後にある原則の両方を組み合わせることが最も効果的だった」と述べており、今後の訓練戦略の方向性を示唆しています。

AIが読む物語が、AIの性格をつくる

この一連の知見が示す含意は、AI安全性の議論において見落とされがちな角度から来ています。どんなデータで育てるかという問題は、何を禁止し何を許可するかというルールの話ではなく、AIが世界をどう解釈するかという認識の枠組みの問題です。人間の子どもが読む本や見るテレビが価値観の形成に影響するように、AIもまた学習テキストの文化的な偏りを内面化します。Anthropicが突き止めたのは技術的なバグではなく、データの中に宿る物語の力でした。それを逆手にとって、誠実なAI像を描くコンテンツを意図的に訓練データへ組み込む。その発想の転換こそ、今回の研究が持つ本当の価値だと思います。