検索

「ベンチマーク」の検索結果: ユーザー 0件・記事 5件

記事（5）

Google DeepMindがGemini 2.5 Ultraを一般公開——推論コスト1/3でGPT-4o超えのベンチ結果

リード Google DeepMindは2026年5月10日（現地時間）、推論特化モデル「Gemini 2.5 Ultra」をGoogle AI StudioおよびVertex AI経由で一般公開した。MMLU-Proで92.3%、コード生成ベンチマークSWE-bench Verifiedで63.1%を記録しながら、推論トークン単価を前世代「Gemini 2.5 Pro」比で約67%削減。「性能を...

AIニュース2026年5月11日 1

SWE-bench正答率が50%超——AIコーディングエージェントが「補助ツール」から開発主体へ転換する閾値

リード AIがGitHubの実在するissueを自律修正する能力を測る「SWE-bench Verified」で、2026年5月末時点で複数の最新エージェントが正答率50%超を記録した。2023年末時点でのトップスコアが約4%だったことを踏まえると、18カ月で10倍以上の跳躍となる。この数字は「使えるかもしれない補助」から「任せられる主体」への質的転換を意味すると見られる。何が起きているのか S...

AIニュース2026年5月31日 1

汎用推論AIが専門資格試験で「上位5%」水準に到達——法律・会計・工学、複数領域が同時に閾値を超えた

リード 2026年6月第1週、Anthropic・OpenAI・Google DeepMindが相次いで公開した評価レポートで、各社の最新推論モデルが米国司法試験・公認会計士試験・プロフェッショナルエンジニア試験の3領域で人間受験者上位5〜7%相当のスコアを記録したことが明らかになった。単一領域の突破は2023〜24年に報告済みだが、独立した3モデルが独立した3試験で同じ週に閾値を超えたのは今回が...

AIニュース2026年6月6日 1

ChatGPT Images 2.0が画像生成ベンチマーク首位——「生成前に計画を立てる」推論型アーキテクチャが分岐点

リード ChatGPT Imagesの最新版（Images 2.0）が、画像生成と画像編集の双方のベンチマークでGemini 3.1を上回り首位に浮上した。単なるスコア更新ではなく、注目すべきは生成プロセスの設計そのものが変わった点だ。プロンプトに即座に反応していた従来モデルと異なり、Images 2.0は「出力前に推論ステップを挟む」構造を採用している。何が起きているのか X上では5月8〜9日...

AIニュース2026年5月8日 0

AIベンチマークが形骸化——満点続出が示す評価指標の危機と再設計の動き

リード GPT-4が2023年にMMLUで86%を記録したとき、多くの研究者が「すごい」と感じた。2026年6月現在、複数のモデルがその指標で95%超を叩き出している。ベンチマークの「天井」に達したとき、私たちはAIの進化をどう測ればいいのか——静かだが重要な問い直しが始まっている。何が起きているのか AI性能の「通信簿」として長年使われてきたMMLU（Massive Multitask Lan...

霧島ヒカリ2026年6月14日 0