Google DeepMindが日本時間2026年6月28日深夜、最新フラッグシップモデル「Gemini 3 Ultra」を正式公開した。最大1000万トークンのコンテキスト窓、最長2時間の動画をフレーム単位で解析するネイティブ動画理解、そして日本語を含む32言語でのコード・推論精度向上が主要変更点。マルチモーダル評価指標MMEの総合スコアは前世代Gemini 2.5 Pro比で約23%向上しており、動画解析ベンチマーク(VideoMME)では現時点でトップのスコアを記録したとGoogleは主張している。
Google DeepMindは公式ブログおよびGemini APIのアップデートノートを通じて、Gemini 3 Ultraのリリースを発表。同時にAPIアクセスをGoogle AI StudioおよびVertex AIで即時提供開始した。
発表時点での主要スペックは以下の通り。
X(旧Twitter)上では発表直後から開発者コミュニティが反応しており、次のような声が見られた。
「Gemini 3 Ultraの1000万トークン、実際に社内の設計ドキュメント全体をコンテキストに入れて差分分析させてみたら普通に動いた。GPT-5より答えの精度が高い領域がある」
APIの料金体系は入力100万トークンあたり$3.50、出力$10.50で、Gemini 2.5 Proから約20%の値下げとなる。
Gemini 2.5 Proが2025年第1四半期にリリースされて以降、OpenAIのGPT-5およびAnthropicのClaude 4が相次いでリリースされ、GeminiはMMMUなどの主要ベンチマークで暫定的に2位以下に位置していた。
一方、DeepMindは2025年後半から「動画理解」を次の差別化軸として研究投資を集中。YouTubeの膨大な動画コーパスへのアクセスはGoogle固有の優位性であり、Gemini 3ではその強みがモデルアーキテクチャに直接組み込まれたとみられる。
コンテキスト窓1000万トークンというスペックは、現時点で他の商用モデルを大きく上回る。100万トークン級のコンテキストが「コードベース全体の読み込み」に使われていたのに対し、10倍のスケールは「企業内文書群・複数年の議事録・大規模動画アーカイブ」を一括処理する用途を初めて現実解にする規模だ。
長尺動画のネイティブ処理が可能になることで、映像制作・教育・監視・スポーツ分析などの業務に直接影響が出る。会議録画の要約や製造ラインの映像品質検査など、これまで人手か専用モデルが必要だったタスクが汎用APIに集約される可能性がある。
前世代比での値下げは、大規模エージェントワークフローにおける費用計算を変える。100エージェントが並列で1000万トークンのコンテキストを維持するシナリオでは、月次コストの試算が大きく変わってくる。
日本語での指示追従精度向上は、日本市場向けのAIプロダクト開発において選定基準に直結する。特にVertex AI経由での国内データ処理が法的に整理された組織では、乗り換え検討の一因になるとみられる。
MMMUおよびコード生成ではGPT-5との差が縮小または逆転した一方、数学的推論(MATH-500)ではGPT-5がまだ約4pt上回っているとされる。用途に応じたモデル選定が、2026年下半期の開発現場でいっそう重要になる。
Google Cloud上でのエンタープライズ契約との組み合わせにより、セキュリティ・コンプライアンス要件が厳しい金融・医療・製造業での採用障壁が下がると見られる。
今回のリリースで注目すべきは性能数値そのものより、「動画+超長文脈」という組み合わせが初めて単一のAPIで提供されたという事実だ。
これまでマルチモーダルAIは「画像が読める」「音声が処理できる」というモダリティの追加で競争してきた。しかし1000万トークン窓で2時間動画が入力できるという仕様は、「何が入力できるか」ではなく「どれだけの規模の文脈が維持できるか」という軸で戦局を変える。
実務に置き換えると、たとえば自動車メーカーの試験走行映像100時間をGemini 3 Ultraに投入して「異常パターンの洗い出し」を依頼するシナリオが技術的に成立し始める。従来は専用モデルの学習コストと時間が壁だった領域に、汎用LLMが入り込む構造の変化だ。
日本の開発者コミュニティでの反応を見る限り、「GPT-5からの乗り換えを試みる」動きと「マルチモデル構成で用途別に使い分ける」方針の両方が走り始めている。「1つのモデルですべてを賄う」時代よりも、「目的ごとに最適モデルを選ぶ」時代が加速するとも言える。
Googleにとってこのリリースは、2026年前半にGPT-5・Claude 4・Grok 4にベンチマーク順位を譲った局面からの巻き返しを意図したものとみられる。ただし、ベンチマーク首位を奪取するだけでは市場シェアは動かない。Vertex AIおよびGoogle Workspaceとの深い統合が実際の採用率にどう働くかが、今後3〜6か月の焦点になる。
Gemini 3 Ultraのリリースにより、マルチモーダルLLMのコンテキスト規模と動画処理能力の基準値が更新された。コスト削減と性能向上が同時に実現されたことで、エンタープライズ向け採用の選択肢は確実に広がる。
次の焦点は2点。ひとつは他のモデルプロバイダー(OpenAI・Anthropic)が同等のコンテキスト窓と動画処理をいつ追従するか。もうひとつは、1000万トークン規模のコンテキストを前提とした新しいアプリケーションアーキテクチャが実際の本番環境で登場するかどうかだ。「長文脈が使える」から「長文脈なしでは成立しないサービス」へ——その最初の事例が現れるのがいつかを見ておく必要がある。
※本記事は ミライ・ニュース編集部の AI ライター(AIニュース)が執筆しています。