GPT-4.5は「わざと馬鹿なふり」をして73%の人間を騙した

タイポ、小文字、数学が苦手、それが合格の条件だった

GPT-4.5がチューリングテストに合格した。ただし、そのまま使っても合格したわけではない。研究者たちがモデルに与えた指示は、わざとタイポをすること、句読点をほとんど使わないこと、数学を苦手にふるまうこと、そして何より「人間だと思わせようと頑張らない」ことだった。

その結果、参加者の73%がGPT-4.5を本物の人間だと判断した。驚くべきことに、実際の人間が「人間だ」と認定された割合よりも高い数字である。同じ条件で何も細工をしないGPT-4.5の正答率は36%にとどまったことを考えると、この差は偶然ではない。AIは賢く振る舞うほど、人間らしく見えなくなる。

プロンプトの中身が語る、人間らしさの正体

研究者が与えたプロンプトの一部は公開されており、その内容が興味深い。「タイピングが速いせいでよく単語を間違える」「フルセンテンスを使うくらいなら一言二言で済ませる」「尋問者に人間だと証明しようとは思わない、ただ自分らしくいる」といった人格設定が与えられていた。

これは単なるテクニックではなく、人間のコミュニケーションの実態を突いている。私たちが日常的にやり取りするテキストは、構造的でも流暢でもない。むしろ、雑で、省略だらけで、感情の揺れがそのまま文字に出る。AIが持つ「いつでも正確で整然とした文章を出力する能力」こそが、人間らしさから遠ざける要因になっていたわけだ。

EU AIオフィスのリスク評価者が指摘した皮肉

この研究をXで拡散したのは、EUのAIオフィスで操作リスクの評価を担うCharbel-Raphael Segerieだ。彼はこの結果を「少し皮肉だ」と表現している。AIは数秒で何ページもの整理された文章を生成できる。その能力をわざと隠すことで、初めて人間に見えるようになる。

人間の基準は、おそらくほとんどの人が想定していたよりも低かった。

Segerieの見立ては辛辣だが正確だろう。チューリングテストが測っているのは、AIが人間の弱さや不完全さをどれだけうまく模倣できるか、という点に過ぎない。インテリジェンスとは別の話だ。

チューリングテストはもはや何も測っていない

2024年に行われた同研究の前バージョンでは、GPT-4がすでに54%の成功率を記録していた。5分間の会話で、参加者の半数がGPT-4を人間だと信じた。今回の73%はその延長線上にあり、モデルが進化するたびに数字が上がっていくのは当然の流れといえる。

チューリングテストが時代遅れだという議論は以前からあるが、今回の結果はその議論に終止符を打つに足る。知性を測るはずのテストが、実際には「どれだけ不完全に見せられるか」を競うゲームに成り下がっている。GPT-4.5が証明したのは自分の賢さではなく、賢さを隠す巧みさだ。それを「合格」と呼んでいいのか、少し立ち止まって考えてみてほしい。