わずか41日で生まれた新フラッグシップ
前作の Opus 4.7 がリリースされてから、まだ41日しか経っていません。通常の Anthropic であれば、SonnetやHaikuの更新ペース——それぞれ3か月、7か月——を考えると、この速さは異例です。一部ユーザーから「期待外れ」との声を受けた 4.7 の汚名返上なのか、それとも OpenAI の Codex や Google の Gemini Flash といったライバルの猛追に押された形なのか。おそらく両方でしょう。いずれにしても、Anthropic は 5月28日に Claude Opus 4.8 を正式リリースしました。
料金は前作と据え置き。標準モードで入力100万トークンあたり5ドル、出力25ドルです。2.5倍速の「Fast Mode」は入力10ドル、出力50ドルと、以前の3分の1に引き下げられました。
数字で見る性能の底上げ
ベンチマーク上の進化は明確です。エージェント型コーディング評価の SWE-Bench Pro では、Opus 4.7 の64.3%から69.2%へと改善。OpenAI の GPT-5.5(58.6%)とも差を広げました。高度な多分野推論を測る「Humanity's Last Exam」では、ツール使用時に57.9%というフィールド最高値を記録しています。
実用コストの観点でも朗報があります。第三者機関 Artificial Analysis の試算によると、現実的な知識業務タスク群を扱う GDPVal-AA ベンチマークで、Opus 4.8 は 4.7 と比べてタスクあたりの試行回数を15%、出力トークン数を35%削減しています。APIの単価は変わらなくても、実際に支払う額は下がる可能性が高いわけです。GPT-5.5と比べるとまだ30%ほど試行回数が多いという課題は残りますが、4.7 時代の「なぜか高くついた」問題はかなり解消されそうです。
AIが「わかりません」と言えるようになった
今回のリリースで Anthropic が最も力を入れて語っているのは、性能数値よりも「正直さ」の向上です。AIモデルは根拠のない確信を持って誤った答えを出す傾向があり、それは業界全体の慢性的な問題でした。Opus 4.8 はその改善を数値で示しています。社内のコーディング評価では、バグを見逃してコメントなしにパスするケースが Opus 4.7 の約4分の1に減ったといいます。
「Opus 4.8 が最も際立っていたのは、分析の入出力に対して問題点を能動的に指摘してくれる点でした。他のモデルが日常的に見逃し、ユーザーが自分で気づかなければならなかったことです」
——Bridgewater Associates(Anthropic 発表より)
大手ヘッジファンドがこうした形で評価を寄せるのは、単なるマーケティングトークではありません。金融分析の現場で「確証なき断言」がどれだけ危険かを知っているからこそ、この変化が刺さるのでしょう。
数百のサブエージェントを束ねる「ダイナミックワークフロー」
Anthropic は新モデルと同時に「Dynamic Workflows」と呼ぶ機能を研究プレビューとして公開しました。Opus 4.8 がタスク全体を計画し、必要に応じて数百の並列サブエージェントを立ち上げるという仕組みです。「数十万行規模のコードベース移行を、計画からマージまで Claude Code が単独で完遂できる」と Anthropic は述べています。
あわせて、claude.ai と Cowork ではモデル選択画面の横に「努力量コントロール」が追加されました。スライダーひとつで「速度優先」から「精度最大(max)」まで切り替えられます。Opus 4.8 のデフォルトは「high」。難解なタスクには「extra」や「max」を推奨しており、消費トークンは増えるものの、Claude Code ユーザー向けには上限引き上げで対処するとのことです。この機能は Enterprise・Team・Max プランで利用できます。
Mythosはまだ先、でも「数週間以内」
Anthropic がより高性能な「Mythos」モデルを抱えていることは、先月の限定プレビューで明らかになっています。ただサイバーセキュリティ上の懸念から、一般公開は保留中です。今回の発表文には「必要な安全対策の整備が急速に進んでおり、数週間以内に全ユーザーへ提供できると見込んでいる」と記されていました。
Mythos がどこまで現実を変えるのかは未知数ですが、Anthropic の今のリリースペースは、その答えを出すまでに競合との差を維持しようという意思の表れに見えます。「正直さ」を武器にしたフラッグシップが、しばらくは最前線に立ちます。
