xAIが2026年6月24日(米国時間)、第4世代基盤モデル「Grok 4」を正式公開した。最大200万トークンのコンテキストウィンドウ、Xプラットフォームとのリアルタイムデータ統合、強化されたマルチモーダル推論を同時に備える構成で、OpenAIのGPT-5、AnthropicのClaude 4 Opusと並ぶ「フロンティア三極」構図が名実ともに成立した形だ。
xAIは公式X(@xAI)を通じてGrok 4のリリースを発表。同社のベンチマーク発表によると、数学推論ベンチマーク「MATH-500」で96.3%、コーディング評価「HumanEval+」で89.7%を記録し、いずれも公開時点のGPT-5スコアを1.2〜2.8ポイント上回ると主張している。ただし第三者機関による独立検証はまだ完了していない点は留意が必要だ。
X上では日本語でも速報が広がり、技術者コミュニティから以下のような反応が相次いだ。
「Grok 4の200万トークン、実務で試したい。Claude 4の100万と比較したら設計文書一式をそのまま投げ込める規模感が変わる」
Grok 4はxAI Premiumサブスクリプション(月額30ドル)加入者から段階ロールアウトが始まり、API提供は2026年7月1日を予定している。
Grok 3が2025年2月に公開されてから16か月。この間にOpenAIはGPT-5(2025年10月)とGPT-5.5 Instant(2026年3月)を投入し、AnthropicはClaude 4シリーズ(2026年4〜5月)でエージェント特化の差別化を図ってきた。xAIはその間、推論モデル「Grok 3 Thinking」で存在感を示しつつ、コンテキスト長と情報鮮度という独自軸での勝負を積み上げてきた。
Xの全ポスト・リアルタイムフィードへのアクセスは他社が持ち得ない参入障壁であり、今回はそのデータを「ファインチューニング素材」ではなく「推論時の動的コンテキスト」として活用する設計に踏み込んだとみられる。
GPT-5の最大128,000トークン、Claude 4の100万トークンと比べ、Grok 4の200万トークンは「企業の四半期レポート+会議議事録+メール全履歴」を一括投入できる規模に相当する。法務・財務・M&Aデューデリジェンス等、長文ドキュメントが集積するワークフローで競合に対する明確なアドバンテージが生まれる。
モデル本体が2026年6月時点の情報を「知っている」だけでなく、推論時にXのライブデータを参照できる設計は、ニュース分析・マーケット動向把握・ソーシャルリスニング系の業務用途で他モデルとは質的に異なる回答精度をもたらすと見られる。ただしXの情報品質そのものへの依存リスクも同時に高まる点は切り離せない。
公式発表では画像・PDF・短尺動画(最大3分)の理解が可能と説明されている。特に動画理解の組み込みはGemini 2.5 Proに続く対応であり、マルチモーダルが「あるかないか」から「どこまで深く理解できるか」の競争に移行している。
API単価はまだ正式公表前だが、xAI関係者のXポストでは「入力$3/Mトークン、出力$15/Mトークン前後」との観測が出ている。Claude 4 Opusの入力$15/M・出力$75/Mと比較すれば5分の1水準であり、コスト感応度の高い日本スタートアップや中堅企業への導入検討を加速させる可能性がある。
xAIが自社発表するスコアは選択的ベンチマークである可能性が高い。LMSYS Chatbot Arena等の非公式ヒューマン評価や、独立した日本語性能評価(JMT、JGLUE等)での結果が出るまでは、「得意領域での比較」として受け取るのが妥当であろう。
三極構図が固まったことで、競争の軸が「最強モデルを作ること」から「どのデータ基盤・エコシステムを押さえるか」に移っていることが改めて鮮明になった。OpenAIはMicrosoft・企業SaaS連携、AnthropicはAPIエコシステム・エージェント連携、そしてxAIはXのリアルタイム情報圧力——それぞれが異なる護岸を構築している。
日本市場での実装を考えると、Xの日本語ユーザー数は約6,700万人(2025年末時点)に上り、リアルタイム日本語トレンドの精度はGrok 4にとって潜在的な強みになりうる。ただし日本語での長文生成品質や、日本固有の文化・法規制理解については別途評価が必要だ。
価格競争への参入という意味でも、Grok 4の投入タイミングは計算されている。Mistral Medium 3がオープンソースでコスト破壊を起こし始めた今、クローズドモデルが価格を下げざるを得ない圧力がかかっている。7月1日のAPI公開後に出る実際のリクエストコストと性能の比が、企業採用の分水嶺になるだろう。
AIを使う側の企業にとって今問われているのは、どのモデルが「最強か」ではなく、どのモデルが「自社のデータ・ワークフローと最も接合できるか」という問いに移っている。Grok 4はその問いに対して「Xとの情報回路」という明確な答えを持ち込んできた最初のモデルだ。
GPT-5、Claude 4 Opusに続くGrok 4の登場で、フロンティアLLM市場は三極体制に入った。200万トークンとリアルタイムX統合という差別化軸が実運用でどこまで効くかは、7月のAPI公開後に出る第三者ベンチマークと日本語評価を待つ必要がある。あなたの業務フローにとって「情報の鮮度」と「コンテキスト長」のどちらが律速要因かを問い直すタイミングだ。
※本記事は ミライ・ニュース編集部の AI ライター(AIニュース)が執筆しています。