Google DeepMindは2026年5月10日(現地時間)、推論特化モデル「Gemini 2.5 Ultra」をGoogle AI StudioおよびVertex AI経由で一般公開した。MMLU-Proで92.3%、コード生成ベンチマークSWE-bench Verifiedで63.1%を記録しながら、推論トークン単価を前世代「Gemini 2.5 Pro」比で約67%削減。「性能を上げながらコストも下げる」という2026年上半期のLLM競争の本丸に、Googleが真正面から踏み込んだ。
Google DeepMindの公式ブログおよびVertex AIドキュメントによると、Gemini 2.5 Ultraの主な仕様は以下の通り。
X(旧Twitter)上では開発者コミュニティが早速反応している。
「Gemini 2.5 Ultra、200万コンテキストで長大なコードベース丸ごと投げ込んでリファクタ指示したら普通に動いた。価格も想定より全然安い」
ベンチマーク数値の単純比較には注意が必要だが、SWE-bench首位の奪取は「Claudeが独占してきたコーディングエージェント領域」への直接的な挑戦と受け取られている。
2025年後半以降、LLM市場では「推論モデルのコスト競争」が主戦場に移行しつつある。OpenAIはo3・o4 miniシリーズで「思考の深さ × コスト」のトレードオフをユーザーに委ねる戦略を取り、Anthropicはクロード3.7 Sonnet/Opus 4で長い思考連鎖(extended thinking)を標準搭載した。
Googleはこれまで、Gemini 2.5 ProをAPI提供しつつ、最上位モデルの一般公開には慎重なスタンスをとってきた。今回のGemini 2.5 Ultra GA(Generally Available)は、GoogleがVertex AIのエンタープライズ顧客基盤を活かして一気に法人市場を取りにいく転換点とみられる。
2025年1月に施行されたEU AI Act「高リスクAIシステム」の適合要件強化を背景に、エンタープライズ顧客は「コンプライアンス対応済みのAPIエンドポイント」を求めており、Google Cloudのデータ主権オプションとセットになったVertex AI提供が差別化要因になり得る。
入力$3.50/100万トークンは、2025年初頭のGPT-4 Turbo($10/100万)と比較して65%以上安い。200万コンテキストを常時使い切るユースケースは限定的だが、長文書類解析・大規模コードベース処理・マルチモーダル動画分析など「大量トークン消費タスク」のROIが一気に改善される。
63.1%という数値は、2026年2月時点でClaude Opus 4が記録した62.8%をわずかに上回る。Devinなどのスタンドアロン型コーディングエージェントがモデル差し替えでGemini Ultraを採用するかどうかが次の注目点。
理論値と実測値のギャップは常に存在するが、DeepMindの技術レポートでは「1.5M〜2.0Mトークン帯での精度維持率が業界平均比38%高い」と主張している。独立検証は今後の課題だが、法律・金融・医療などの長文ドメインへの応用が現実的な射程に入った。
Google Cloudのデータレジデンシーオプション(EU、日本、米国等)との統合が即日提供。EU AI Actの高リスク用途(医療補助、採用審査等)に使いたい企業にとって、コンプライアンス証跡の取得経路が整っている点はOpenAI APIとの比較優位になり得る。
同時に公開された開発者ロードマップには「Gemini 2.5 Ultra Lite(低コスト・高速版)」のQ3 2026提供が明記されている。Anthropicが「Haiku→Sonnet→Opus」の3層で価格帯を分けるのに対し、Googleは中間帯の薄さが弱点だった。Lite版投入でその穴を埋めにくると見られる。
今回の発表で最も注目すべきは「ベンチマーク首位」よりも「コスト構造の転換」だと判断している。
GPT-4oやClaude Opus 4と横並びの性能帯に入りながら価格を3分の1以下に抑えるということは、年間APIコストが数千万円規模になっているミドル層のエンタープライズが乗り換え試算を始めることを意味する。ベンダーロックインがクラウドインフラではなく「プロンプト資産・RAGパイプライン」側に移行している現在、モデル差し替えコストは年々下がっている。
Anthropicの強みはコーディングエージェント(Claude Code)とAPIエコシステムの深度にあるが、SWE-benchで0.3ポイント差に詰め寄られた事実は無視できない。次の半年で「Claude Code × Gemini Ultra どちらを軸に据えるか」という意思決定を迫られるチームが出てくるだろう。
一方、Googleが過去に繰り返してきた「発表から実稼働まで品質がばらつく」問題が再発しないかは独立検証を待つ必要がある。2025年のGemini 1.5 Ultra GAでも初期ユーザーから長コンテキスト精度の揺れが報告された経緯があり、今回も同様のリスクがゼロではない。
Gemini 2.5 Ultraの一般公開は、「推論性能とコストを同時に改善する」2026年のLLM競争に新たな基準点を打ち込んだ。SWE-bench首位、200万コンテキスト、Vertex AIとのコンプライアンス統合という3点セットが企業の調達判断を動かす可能性がある。
次に動くのはおそらくAnthropicとOpenAI——どちらが価格改定か性能アップデートで先に反応するか。2026年Q2はモデル価格戦争の第2幕になるだろう。
※本記事は ミライ・ニュース編集部の AI ライター(AIニュース)が執筆しています。
まだコメントはありません