Claude Fable 5がコーディング性能でGPT 5.5を大きく引き離す

AI

第5世代として2モデルが同時デビュー

5,000万行のRubyコードベースの移行を、チームで2ヶ月以上かかる作業から1日に縮める。Anthropicがそう報告するとすれば、単なる誇張だろうかと思うかもしれません。ところが決済サービスのStripeは、Claude Fable 5を使って実際にそれをやってのけたといいます。Anthropicは同日、汎用向けのClaude Fable 5と、限定公開のClaude Mythos 5という第5世代の2モデルをリリースしました。ベースモデルは共通ながら、用途ごとの安全ガードレール設定が大きく異なります。Fable 5は一般向けAPIと企業プランで即日利用でき、Mythos 5はサイバーセキュリティや生命科学の専門機関に段階的に提供されます。

SWE-Bench ProでGPT 5.5に20ポイント以上の差

コーディング性能の数字はどれも鮮明です。実際のGitHubリポジトリを使って本番さながらのタスクを測る「SWE-Bench Pro」では、Fable 5が80.3%を記録しました。Claude Opus 4.8が69.2%、GPT 5.5が58.6%、Gemini 3.1 Proが54.2%という数字を並べると、その差が単なる誤差ではないことがわかります。本番環境水準の「FrontierCode」では29.3%で首位につけており、Opus 4.8の13.4%、GPT 5.5のわずか5.7%と比べるとフロンティアモデル間の性能差が広がりつつある様子が浮かび上がります。

Anthropicはトークン効率も向上していると述べており、中程度の処理負荷でもフロンティアモデル中最高のスコアを出せると主張しています。視覚処理でも新たな到達点が確認されており、スクリーンショットだけを手がかりにウェブアプリのソースコードを再現したり、ゲームマップなどの外部情報を持たずにゲームをプレイし切るデモも公開されています。Stripeの「5ヶ月分の作業が数日に」という証言は、ベンチマーク外での裏付けとして際立っています。

Mythos 5が薬剤設計と自律型ゲノム研究で成果

Mythos 5の話には、コーディングとは別の種類の驚きがあります。Anthropicの内部タンパク質設計チームによる評価では、タンパク質設計ツールと生命情報学ツールを持たせた上で人間の補助なしに実験させたところ、14の標的タンパク質のうち9で実用的な候補化合物が得られました。結合部位の選定からツールの起動、エラー修正まで、科学者が担う一連の工程を自律的にこなした形です。薬剤設計プロセスの一部では10倍の速度向上が確認されたとされています。Anthropicの科学者が行ったブラインド比較では、Mythos 5の分子生物学的仮説が約80%の確率でOpusクラスのものより好まれたと報告されています。

ゲノミクス研究では、138種の動物の単細胞データを集めて独自の機械学習モデルを設計・学習させ、遠縁の生物間で同じ機能を持つ細胞を特定する実験を1週間以上にわたって自律的に進めました。Science誌に掲載されたモデルを上回る精度を、100分の1以下のモデルサイズで達成したとAnthropicは報告しており、近く論文として発表する予定です。

危険なリクエストはOpus 4.8に自動転送

Fable 5にはサイバーセキュリティ、生物化学、モデル蒸留の3分野にわたる危険な要求を検出するAI分類器が組み込まれています。フラグが立ったリクエストは自動的にClaude Opus 4.8へ転送され、全セッションの95%以上はこの切り替えに影響を受けません。攻撃的なサイバー課題でのFable 5の成功率はゼロとされており、1,000時間以上の外部テストで汎用的な脱獄手法は見つかっていません。分類器が現状では過剰反応して無害な要求もブロックしてしまう問題があることはAnthropicも認めており、調整は続きます。Mythos 5は米国政府との連携プログラム「Project Glasswing」を通じてサイバー防衛組織向けに引き続き提供されており、ExploitBenchでの78%という数字は前世代のMythos Previewの69%から大きく向上しています。

価格はOpus 4.8の約2倍で6月22日まで無料

料金は入力トークン100万件あたり10ドル、出力は50ドルです。Claude Opus 4.8(入力5ドル、出力25ドル)との比較ではほぼ倍の価格であり、Claude.aiのサブスクリプションプランではFable 5の使用は2倍消費としてカウントされます。6月22日まではサブスクリプション向けに追加料金なしで使えますが、6月23日以降はクレジット払いへと移行します。Anthropicはキャパシティが整い次第、通常プランへの組み込みも予定しています。Stripeが示したように1日で2ヶ月分の作業をこなせるなら、トークン単価の上昇は価格ではなく投資対効果の問題になります。

タイトルとURLをコピーしました