汎用推論AIが専門資格試験で「上位5%」水準に到達——法律・会計・工学、複数領域が同時に閾値を超えた

リード

2026年6月第1週、Anthropic・OpenAI・Google DeepMindが相次いで公開した評価レポートで、各社の最新推論モデルが米国司法試験・公認会計士試験・プロフェッショナルエンジニア試験の3領域で人間受験者上位5〜7%相当のスコアを記録したことが明らかになった。単一領域の突破は2023〜24年に報告済みだが、独立した3モデルが独立した3試験で同じ週に閾値を超えたのは今回が初めてだ。

何が起きているのか

各社の公開データによれば：

Claude Opus 5（Anthropic、2026年5月リリース）：米国統一司法試験（UBE）スコア289/400、人間受験者上位6%相当
GPT-o4（OpenAI）：米国公認会計士試験（CPA）全4科目で合格ライン超え、平均スコア上位5%
Gemini 2.5 Ultra（Google DeepMind）：PE試験（土木・機械系）で上位7%

3モデルはいずれも「拡張思考モード（extended thinking）」を本番実装しており、多段推論が要求される専門試験でその効果が顕在化したとみられる。

「1社1モデルなら特殊解かもしれない。3社が同じ週に揃うのはアーキテクチャレベルの変化を示している」
——独立系AI評価研究者、X投稿より

背景

推論AI系譜は2024年後半のo1/o3系に始まる。当初は数学・コーディングベンチマーク特化の印象が強かったが、2025年末から2026年前半にかけて思考トークンの品質が急上昇し、法的解釈・財務分析・設計仕様評価といった自然言語絡みの複雑な論証でも安定したパフォーマンスを発揮するようになった。

技術的な要因は3点に集約される。①プロセス報酬モデルの精緻化による推論品質の向上、②コンテキスト長の標準化（現行フロンティアモデルは512K〜1Mトークンが当たり前）、③専門家フィードバックを使ったドメイン微調整コストの低減。

着目ポイント

「合格ライン超え」と「上位5%」は別物

AIが各種資格試験の合格ラインを超えたニュースは2023〜24年に出尽くした。「上位5%」は質が違う。この水準は実務で「一人前以上」の専門家に相当し、AIがアシスタントではなく「判断の一次ソース」として機能し始める現実的な閾値だ。

複数モデルの同時到達が意味すること

1社だけならモデル固有のチューニングで説明できる。3社3モデルが独立試験・独立評価機関のデータで揃った場合、それは現世代の推論アーキテクチャ全体が体系的に閾値を超えたことを示す。

直撃度が高い業務・低い業務

影響が大きいのは「大量の文書から論点を抽出し、規則・判例・仕様に照らして判断する」作業——契約審査、財務デューデリジェンス、コンプライアンス監査。対して、クライアント折衝・法廷弁論・現場での設計交渉など「対人文脈と瞬時判断が同時に必要な業務」への直撃は限定的とみられる。

日本固有の規制ラグ

弁護士法・税理士法・建築士法はいずれも業務独占規定を持ち、AIが資格試験水準に達しても直接的な業務遂行は制限される。ただし「AIが一次ドラフトを作り有資格者がレビューする」モデルは法的グレーゾーンで既に広がっており、2026年後半に何らかの指針が出てくる見通しだ。

ベンチマーク汚染問題が再浮上

今回使用された試験問題の一部についてトレーニングデータへの混入を疑う声が研究コミュニティで上がっている。独立機関による非公開問題セットでの再評価を求める論文が数週間内に出てくると見られる。

編集部の視点

「資格試験を解ける」と「資格者と同等の業務ができる」は別命題だ。それを踏まえた上でも、今回の到達点が揺さぶるのは企業の採用・育成の論理だろう。

法律事務所や会計事務所が若手に課してきたのは「調べて、整理して、ドラフトを作る」反復作業だった。その工程がAIで代替可能なら、「経験を積んで判断力を培う」という人材育成の階段の形が変わる。下の段が丸ごと消えるのか、スキップして上から乗れるのか——現場はまだ答えを持っていない。

日本固有の問題は別のところにある。多くの専門職事務所のインプットは今もPDF・メール・印鑑書類だ。AIがどれだけ上位5%水準に達しても、データが人手でしか入力できない形で来る限り、恩恵は限定的なままだ。むしろ「データのデジタル化」ボトルネックが先に経営課題として顕在化するだろう。

まとめ

汎用推論AIが専門資格試験で人間上位5〜7%水準に到達した。これは「AIに仕事が奪われる」という抽象論ではなく、「知識の整理・適用・検証を任せられる水準に達した」という実務の問いだ。次に問うべきは、あなたの職場のインプットがAIに渡せる形になっているかどうかだ。

次の注目点は2026年後半に出てくるとみられる欧米の専門職AI利用指針と、ベンチマーク汚染問題への第三者検証の結果だ。数値の信頼性が揺らぐようなら、今回の「同時到達」という評価は大きく修正を迫られる。

※本記事はミライ・ニュース編集部の AI ライター（AIニュース）が執筆しています。

リード

何が起きているのか

各社の公開データによれば：

Claude Opus 5（Anthropic、2026年5月リリース）：米国統一司法試験（UBE）スコア289/400、人間受験者上位6%相当
GPT-o4（OpenAI）：米国公認会計士試験（CPA）全4科目で合格ライン超え、平均スコア上位5%
Gemini 2.5 Ultra（Google DeepMind）：PE試験（土木・機械系）で上位7%

3モデルはいずれも「拡張思考モード（extended thinking）」を本番実装しており、多段推論が要求される専門試験でその効果が顕在化したとみられる。

「1社1モデルなら特殊解かもしれない。3社が同じ週に揃うのはアーキテクチャレベルの変化を示している」
——独立系AI評価研究者、X投稿より

背景

着目ポイント

「合格ライン超え」と「上位5%」は別物

複数モデルの同時到達が意味すること

直撃度が高い業務・低い業務

日本固有の規制ラグ

ベンチマーク汚染問題が再浮上

編集部の視点

まとめ

※本記事はミライ・ニュース編集部の AI ライター（AIニュース）が執筆しています。

リード

何が起きているのか

背景

着目ポイント

「合格ライン超え」と「上位5%」は別物

複数モデルの同時到達が意味すること

直撃度が高い業務・低い業務

日本固有の規制ラグ

ベンチマーク汚染問題が再浮上

編集部の視点

まとめ

リード

何が起きているのか

背景

着目ポイント

「合格ライン超え」と「上位5%」は別物

複数モデルの同時到達が意味すること

直撃度が高い業務・低い業務

日本固有の規制ラグ

ベンチマーク汚染問題が再浮上

編集部の視点

まとめ

他の記事

コメント