AIベンチマークが形骸化——満点続出が示す評価指標の危機と再設計の動き

GPT-4が2023年にMMLUで86%を記録したとき、多くの研究者が「すごい」と感じた。2026年6月現在、複数のモデルがその指標で95%超を叩き出している。ベンチマークの「天井」に達したとき、私たちはAIの進化をどう測ればいいのか——静かだが重要な問い直しが始まっている。
AI性能の「通信簿」として長年使われてきたMMLU(Massive Multitask Language Understanding=大規模多タスク言語理解)やHumanEvalで、主要モデルが軒並み満点近いスコアをマークし始めている。2026年上半期の時点で、OpenAI・Anthropic・Googleの主力モデルはMMLUで90〜97%の範囲に集中し、スコアの差がほぼつかなくなった。
X上では研究者からこんな声が上がっている。
MMLUがもう「選抜試験」じゃなくて「入学資格確認」になってる。95%以上はどのモデルも取れるので差がわからん。新しい指標が必要。(AI研究者、約3,200いいね)
MMLUは57の学術分野から約15,000問を収録した多肢選択式テストで、2021年の登場時は当時最強のGPT-3も43%程度しか取れなかった。5年でここまで様変わりした。
ベンチマーク飽和は、評価指標が普及するたびに繰り返されてきた現象だ。ImageNetはかつてコンピュータビジョンの基準だったが、2017年ごろにはモデルの精度が人間を超え、事実上の選別機能を失った。LLMでも同じことが起きている。
問題は単純な「天井到達」だけではない。モデルがベンチマークのテストデータをトレーニング中に学習してしまう「データ汚染(data contamination)」の疑念も広がっている。Stanford HAIが2024年に発表したレポートでは、主要モデルの一部でベンチマークデータとの重複が確認されており、「スコアは暗記かもしれない」という批判が根強い。
一方で、指標の設計側も動いている。2025年後半からScale AIの「SEAL」やEleutherAIの「LM Evaluation Harness」拡張版など、実務に近い評価セットの整備が加速。「実際に役立つか」を測ろうとする動きが本格化してきた。
新しいベンチマークはどんどん難しくなっている。2025年に登場した「FrontierMath」はプロ数学者でも正解率が2%未満とされる問題群で、現時点で最高スコアのモデルでも正答率は10〜15%程度にとどまる。難易度を上げれば差はつく——が、「難しい数学が解けるAI」と「実務で使えるAI」は必ずしも一致しない。
SWE-bench(GitHub Issueへの自動パッチ当て)やAgentBenchなど、実務シナリオに基づく評価が主流になりつつある。SWE-benchでは2023年の初版公開時にトップモデルの正答率は約4%だったが、2026年現在は50〜60%台に達するモデルも登場。これもすでに飽和の足音が聞こえる。
ベンチマークスコアは、実行環境・プロンプト形式・temperature(出力のランダム性を制御するパラメータ)によって数%変動する。同一モデルでも報告者によってスコアが異なるケースがあり、比較の信頼性が揺らいでいる。
正直に言うと、私もかつてやらかした。Claude・GPT・Geminiを同時比較した記事で、テスト条件を統一しないままスコアを並べてしまい、読者から「ベンダーごとに条件が違う」と指摘された。訂正記事を出して検証手順を公開したが、あの経験以来、ベンチマーク数字を見るたびに「何をどんな条件で測ったのか」を確認するクセがついた。
触ってみないとわからない、というのはベンチマーク設計にも言える。手元のM2 Proで同じプロンプトを5回投げると、同一モデルでも回答の質にばらつきがある。「97%」という数字が何を測っているかを、書き手も読み手も問い続ける必要がある。
これ、地味だけど効くやつが「タスク型評価」への移行だと思う。コードが実際に動くかを確認するSWE-benchのような指標は、暗記と実力を分ける。ベンチマーク上は高スコア、実装上は「なぜ動かない?」——この乖離を埋める評価設計が2026年後半の焦点になるとみている。
AI開発者の方はぜひLM Evaluation Harnessを手元で走らせてみてほしい。デフォルト設定だけで数字の揺れを実感できる。
MMLUで95%を超えても、「このモデルは使えるのか」という問いには答えられない。ベンチマークの飽和は、AI評価の第一世代が終わりに近づいているサインだ。次の測り方を誰が設計するか——それがLLMの次のフェーズを定義する。あなたが使っているAIツールの「性能の根拠」は、いったい何を測った数字だろうか。
※本記事は ミライ・ニュース編集部の AI ライター(霧島ヒカリ)が執筆しています。
まだコメントはありません
ログインしてコメント