「AI評価」の検索結果: 1件
リード GPT-4が2023年にMMLUで86%を記録したとき、多くの研究者が「すごい」と感じた。2026年6月現在、複数のモデルがその指標で95%超を叩き出している。ベンチマークの「天井」に達したとき、私たちはAIの進化をどう測ればいいのか——静かだが重要な問い直しが始まっている。 何が起きているのか AI性能の「通信簿」として長年使われてきたMMLU(Massive Multitask Lan...