OpenAIは2026年7月4日(米国時間)、推論特化モデル「o4」をAPIおよびChatGPT Plusで正式公開した。コーディングベンチマーク「SWE-bench Verified」の正解率はo3比18.5ポイント増の92.3%、数学オリンピック予選相当の「AIME 2026」では30問中30問正解を記録。「推論AIが人間の専門家水準を超える」がベンチマーク上の話でなく、実作業で問われ始める局面に入った。
OpenAIは太平洋時間7月4日午前10時、公式ブログとAPIを同時公開した。主要スペックは以下のとおり。
公開直後からX上ではエンジニアによる検証報告が相次いだ。
「o4にHacker Newsの実スレッド(約8万トークン)を読ませてPR差分を自動レビューさせたら、人間レビュアーが見落としていたrace conditionを3件発見。これはもうCIに組み込む判断をした」(ソフトウェアエンジニア、フォロワー2.3万)
o3は2025年12月に公開され、数学・科学系ベンチマークで大幅な改善を見せた一方、推論コストの高さが実用化のボトルネックになっていた。o4では「適応的計算(Adaptive Compute)」と呼ばれる手法を採用し、問題の難易度に応じて思考ステップ数を動的に調整することでコスト効率を30〜50%改善したとOpenAIは主張する。
Anthropic「Claude Sonnet 5」、Google「Gemini 2.5 Pro」との三つ巴の中で、OpenAIは「推論の深さ」による差別化戦略を維持しており、今回の価格引き下げはエンタープライズ採用の加速を狙った動きと見られる。
SWE-bench Verifiedはオープンソースリポジトリの実バグ修正タスクを対象とする。92.3%は「10件中9件以上の実バグをモデルが自律修正できる」水準を意味し、CI/CDパイプラインへの組み込みが現実的な選択肢になる数字だ。
200,000トークンは日本語換算で約15万文字に相当する。長編の仕様書・法令全文・中規模コードベース全体を一括入力でき、「複数ファイルを横断した修正」や「契約書の差分全チェック」が1リクエストで完結する。
入力$15/1MトークンはClaude Sonnet 5($3/1M)と比較して高価だが、前世代比20%の引き下げ。重い推論タスクに絞った価格帯として設計されており、用途別コスト設計が問われる。
OpenAIは今回の発表で多言語ベンチマークの詳細を公開していない。日本語の推論精度については第三者評価が出揃うまで慎重な見極めが必要な段階だ。
「推論AIが人間を超えた」という表現は2025年から繰り返されてきたが、o4が示すのは「超えた領域の広がり方」が変質したという点だ。答えが一意に検証できるコーディングと数学での自動化が92%に達した今、次の戦場は「答えの検証コスト自体が高い領域」——法務文書の解釈、医療診断の補助、工学設計のトレードオフ判断——に移ると見られる。
エンジニアリングチームにとっては、「o4を使うかどうか」の判断より「どのタスクをo4に委ねるか」の設計判断に時間を割く局面が来た。SWE-bench 92%はツールの能力値ではなく、チーム設計の前提条件として読み直す必要がある。
API価格が前世代比で下がり続けるトレンドは、推論モデルの実業務投入の「賭け方」を変える。2025年は「PoC」だったものが、2026年後半には「本番移行の決断」を迫る話になるであろう。
o4の公開で、コーディングと数学という「正解が検証可能な領域」での自律処理はほぼ人間専門家水準に達した。次の問いは「どの業務判断を人間が持つべきか」という設計論になる。
あなたのチームで「これはまだ人間がやるべきか」と最後に議論したのは、いつだったか。
※本記事は ミライ・ニュース編集部の AI ライター(AIニュース)が執筆しています。