Google DeepMind「Gemini 3 Ultra」正式公開——1000万トークン文脈窓と動画理解がマルチモーダルの基準を塗り替える

リード

Google DeepMindが日本時間2026年6月28日深夜、最新フラッグシップモデル「Gemini 3 Ultra」を正式公開した。最大1000万トークンのコンテキスト窓、最長2時間の動画をフレーム単位で解析するネイティブ動画理解、そして日本語を含む32言語でのコード・推論精度向上が主要変更点。マルチモーダル評価指標MMEの総合スコアは前世代Gemini 2.5 Pro比で約23%向上しており、動画解析ベンチマーク（VideoMME）では現時点でトップのスコアを記録したとGoogleは主張している。

何が起きているのか

Google DeepMindは公式ブログおよびGemini APIのアップデートノートを通じて、Gemini 3 Ultraのリリースを発表。同時にAPIアクセスをGoogle AI StudioおよびVertex AIで即時提供開始した。

発表時点での主要スペックは以下の通り。

コンテキスト窓: 最大10,000,000トークン（前世代比5倍）
動画処理: 最長120分の動画をフレーム・音声・字幕込みでネイティブ入力
マルチモーダルスコア: MMMU 79.4（GPT-5比+3.1pt）、VideoMME 74.8（同+6.2pt）
コード生成: HumanEval+ 92.7%
対応言語: 32言語。日本語の指示追従精度は内部評価で前世代比18%向上

X（旧Twitter）上では発表直後から開発者コミュニティが反応しており、次のような声が見られた。

「Gemini 3 Ultraの1000万トークン、実際に社内の設計ドキュメント全体をコンテキストに入れて差分分析させてみたら普通に動いた。GPT-5より答えの精度が高い領域がある」

APIの料金体系は入力100万トークンあたり$3.50、出力$10.50で、Gemini 2.5 Proから約20%の値下げとなる。

背景

Gemini 2.5 Proが2025年第1四半期にリリースされて以降、OpenAIのGPT-5およびAnthropicのClaude 4が相次いでリリースされ、GeminiはMMMUなどの主要ベンチマークで暫定的に2位以下に位置していた。

一方、DeepMindは2025年後半から「動画理解」を次の差別化軸として研究投資を集中。YouTubeの膨大な動画コーパスへのアクセスはGoogle固有の優位性であり、Gemini 3ではその強みがモデルアーキテクチャに直接組み込まれたとみられる。

コンテキスト窓1000万トークンというスペックは、現時点で他の商用モデルを大きく上回る。100万トークン級のコンテキストが「コードベース全体の読み込み」に使われていたのに対し、10倍のスケールは「企業内文書群・複数年の議事録・大規模動画アーカイブ」を一括処理する用途を初めて現実解にする規模だ。

着目ポイント

動画2時間処理は何を変えるか

長尺動画のネイティブ処理が可能になることで、映像制作・教育・監視・スポーツ分析などの業務に直接影響が出る。会議録画の要約や製造ラインの映像品質検査など、これまで人手か専用モデルが必要だったタスクが汎用APIに集約される可能性がある。

コスト20%減の意味

前世代比での値下げは、大規模エージェントワークフローにおける費用計算を変える。100エージェントが並列で1000万トークンのコンテキストを維持するシナリオでは、月次コストの試算が大きく変わってくる。

日本語精度+18%の実務影響

日本語での指示追従精度向上は、日本市場向けのAIプロダクト開発において選定基準に直結する。特にVertex AI経由での国内データ処理が法的に整理された組織では、乗り換え検討の一因になるとみられる。

GPT-5との性能差が縮まる領域と広がる領域

MMMUおよびコード生成ではGPT-5との差が縮小または逆転した一方、数学的推論（MATH-500）ではGPT-5がまだ約4pt上回っているとされる。用途に応じたモデル選定が、2026年下半期の開発現場でいっそう重要になる。

Vertex AIとのエコシステム統合

Google Cloud上でのエンタープライズ契約との組み合わせにより、セキュリティ・コンプライアンス要件が厳しい金融・医療・製造業での採用障壁が下がると見られる。

編集部の視点

今回のリリースで注目すべきは性能数値そのものより、「動画＋超長文脈」という組み合わせが初めて単一のAPIで提供されたという事実だ。

これまでマルチモーダルAIは「画像が読める」「音声が処理できる」というモダリティの追加で競争してきた。しかし1000万トークン窓で2時間動画が入力できるという仕様は、「何が入力できるか」ではなく「どれだけの規模の文脈が維持できるか」という軸で戦局を変える。

実務に置き換えると、たとえば自動車メーカーの試験走行映像100時間をGemini 3 Ultraに投入して「異常パターンの洗い出し」を依頼するシナリオが技術的に成立し始める。従来は専用モデルの学習コストと時間が壁だった領域に、汎用LLMが入り込む構造の変化だ。

日本の開発者コミュニティでの反応を見る限り、「GPT-5からの乗り換えを試みる」動きと「マルチモデル構成で用途別に使い分ける」方針の両方が走り始めている。「1つのモデルですべてを賄う」時代よりも、「目的ごとに最適モデルを選ぶ」時代が加速するとも言える。

Googleにとってこのリリースは、2026年前半にGPT-5・Claude 4・Grok 4にベンチマーク順位を譲った局面からの巻き返しを意図したものとみられる。ただし、ベンチマーク首位を奪取するだけでは市場シェアは動かない。Vertex AIおよびGoogle Workspaceとの深い統合が実際の採用率にどう働くかが、今後3〜6か月の焦点になる。

リード

何が起きているのか

発表時点での主要スペックは以下の通り。

コンテキスト窓: 最大10,000,000トークン（前世代比5倍）
動画処理: 最長120分の動画をフレーム・音声・字幕込みでネイティブ入力
マルチモーダルスコア: MMMU 79.4（GPT-5比+3.1pt）、VideoMME 74.8（同+6.2pt）
コード生成: HumanEval+ 92.7%
対応言語: 32言語。日本語の指示追従精度は内部評価で前世代比18%向上

X（旧Twitter）上では発表直後から開発者コミュニティが反応しており、次のような声が見られた。

「Gemini 3 Ultraの1000万トークン、実際に社内の設計ドキュメント全体をコンテキストに入れて差分分析させてみたら普通に動いた。GPT-5より答えの精度が高い領域がある」

APIの料金体系は入力100万トークンあたり$3.50、出力$10.50で、Gemini 2.5 Proから約20%の値下げとなる。

背景

着目ポイント

動画2時間処理は何を変えるか

コスト20%減の意味

日本語精度+18%の実務影響

GPT-5との性能差が縮まる領域と広がる領域

Vertex AIとのエコシステム統合

編集部の視点

今回のリリースで注目すべきは性能数値そのものより、「動画＋超長文脈」という組み合わせが初めて単一のAPIで提供されたという事実だ。

リード

何が起きているのか

背景

着目ポイント

動画2時間処理は何を変えるか

コスト20%減の意味

日本語精度+18%の実務影響

GPT-5との性能差が縮まる領域と広がる領域

Vertex AIとのエコシステム統合

編集部の視点

他の記事

コメント

リード

何が起きているのか

背景

着目ポイント

動画2時間処理は何を変えるか

コスト20%減の意味

日本語精度+18%の実務影響

GPT-5との性能差が縮まる領域と広がる領域

Vertex AIとのエコシステム統合

編集部の視点

まとめ