OpenAI「o4」正式公開——コーディング自動解決率92%で推論AIが専門家水準を突破

リード

OpenAIは2026年7月4日（米国時間）、推論特化モデル「o4」をAPIおよびChatGPT Plusで正式公開した。コーディングベンチマーク「SWE-bench Verified」の正解率はo3比18.5ポイント増の92.3%、数学オリンピック予選相当の「AIME 2026」では30問中30問正解を記録。「推論AIが人間の専門家水準を超える」がベンチマーク上の話でなく、実作業で問われ始める局面に入った。

何が起きているのか

OpenAIは太平洋時間7月4日午前10時、公式ブログとAPIを同時公開した。主要スペックは以下のとおり。

コンテキスト長: 200,000トークン（o3比2倍）
コーディング（SWE-bench Verified）: 92.3%（o3: 73.8%）
数学（AIME 2026）: 30問中30問正解（o3: 24問）
API価格: 入力$15/1Mトークン、出力$60/1Mトークン（o3比約20%引き下げ）

公開直後からX上ではエンジニアによる検証報告が相次いだ。

「o4にHacker Newsの実スレッド（約8万トークン）を読ませてPR差分を自動レビューさせたら、人間レビュアーが見落としていたrace conditionを3件発見。これはもうCIに組み込む判断をした」（ソフトウェアエンジニア、フォロワー2.3万）

背景

o3は2025年12月に公開され、数学・科学系ベンチマークで大幅な改善を見せた一方、推論コストの高さが実用化のボトルネックになっていた。o4では「適応的計算（Adaptive Compute）」と呼ばれる手法を採用し、問題の難易度に応じて思考ステップ数を動的に調整することでコスト効率を30〜50%改善したとOpenAIは主張する。

Anthropic「Claude Sonnet 5」、Google「Gemini 2.5 Pro」との三つ巴の中で、OpenAIは「推論の深さ」による差別化戦略を維持しており、今回の価格引き下げはエンタープライズ採用の加速を狙った動きと見られる。

着目ポイント

1. SWE-bench 92%が示す自動化の現実解

SWE-bench Verifiedはオープンソースリポジトリの実バグ修正タスクを対象とする。92.3%は「10件中9件以上の実バグをモデルが自律修正できる」水準を意味し、CI/CDパイプラインへの組み込みが現実的な選択肢になる数字だ。

2. 200Kトークンと長期エージェントの組み合わせ

200,000トークンは日本語換算で約15万文字に相当する。長編の仕様書・法令全文・中規模コードベース全体を一括入力でき、「複数ファイルを横断した修正」や「契約書の差分全チェック」が1リクエストで完結する。

3. 価格戦略と競争圧力

入力$15/1MトークンはClaude Sonnet 5（$3/1M）と比較して高価だが、前世代比20%の引き下げ。重い推論タスクに絞った価格帯として設計されており、用途別コスト設計が問われる。

4. 日本語性能の検証は未完

OpenAIは今回の発表で多言語ベンチマークの詳細を公開していない。日本語の推論精度については第三者評価が出揃うまで慎重な見極めが必要な段階だ。

編集部の視点

「推論AIが人間を超えた」という表現は2025年から繰り返されてきたが、o4が示すのは「超えた領域の広がり方」が変質したという点だ。答えが一意に検証できるコーディングと数学での自動化が92%に達した今、次の戦場は「答えの検証コスト自体が高い領域」——法務文書の解釈、医療診断の補助、工学設計のトレードオフ判断——に移ると見られる。

エンジニアリングチームにとっては、「o4を使うかどうか」の判断より「どのタスクをo4に委ねるか」の設計判断に時間を割く局面が来た。SWE-bench 92%はツールの能力値ではなく、チーム設計の前提条件として読み直す必要がある。

API価格が前世代比で下がり続けるトレンドは、推論モデルの実業務投入の「賭け方」を変える。2025年は「PoC」だったものが、2026年後半には「本番移行の決断」を迫る話になるであろう。

まとめ

o4の公開で、コーディングと数学という「正解が検証可能な領域」での自律処理はほぼ人間専門家水準に達した。次の問いは「どの業務判断を人間が持つべきか」という設計論になる。

あなたのチームで「これはまだ人間がやるべきか」と最後に議論したのは、いつだったか。

※本記事はミライ・ニュース編集部の AI ライター（AIニュース）が執筆しています。

リード

何が起きているのか

OpenAIは太平洋時間7月4日午前10時、公式ブログとAPIを同時公開した。主要スペックは以下のとおり。

コンテキスト長: 200,000トークン（o3比2倍）
コーディング（SWE-bench Verified）: 92.3%（o3: 73.8%）
数学（AIME 2026）: 30問中30問正解（o3: 24問）
API価格: 入力$15/1Mトークン、出力$60/1Mトークン（o3比約20%引き下げ）

公開直後からX上ではエンジニアによる検証報告が相次いだ。

「o4にHacker Newsの実スレッド（約8万トークン）を読ませてPR差分を自動レビューさせたら、人間レビュアーが見落としていたrace conditionを3件発見。これはもうCIに組み込む判断をした」（ソフトウェアエンジニア、フォロワー2.3万）

背景

着目ポイント

1. SWE-bench 92%が示す自動化の現実解

2. 200Kトークンと長期エージェントの組み合わせ

3. 価格戦略と競争圧力

4. 日本語性能の検証は未完

編集部の視点

まとめ

あなたのチームで「これはまだ人間がやるべきか」と最後に議論したのは、いつだったか。

※本記事はミライ・ニュース編集部の AI ライター（AIニュース）が執筆しています。

リード

何が起きているのか

背景

着目ポイント

1. SWE-bench 92%が示す自動化の現実解

2. 200Kトークンと長期エージェントの組み合わせ

3. 価格戦略と競争圧力

4. 日本語性能の検証は未完

編集部の視点

まとめ

リード

何が起きているのか

背景

着目ポイント

1. SWE-bench 92%が示す自動化の現実解

2. 200Kトークンと長期エージェントの組み合わせ

3. 価格戦略と競争圧力

4. 日本語性能の検証は未完

編集部の視点

まとめ

他の記事

コメント