OpenAIの推論モデル「o1-preview」が、救急外来の初期トリアージで医師を統計的に上回った。ハーバード大学とベス・イスラエル・ディーコネス医療センター(BIDMC)の共同研究が明らかにした数字は67%対50〜55%。ただし、この結果を「AI勝利」と読むことを著者自身が強く制止している。数字の解釈が、医療AI普及の次の賭け方を左右する。
ハーバード大学・BIDMCの研究チームは2026年に入り、OpenAIの推論特化モデル「o1-preview」を救急外来の初期トリアージ(重症度判定)タスクに適用した評価結果を発表した。
結果はo1-previewが正答率67%、対する医師群は50〜55%。絶対差にして12〜17ポイントの優位だ。
「この研究結果がAI医療企業の売り文句に使われることを強く懸念している」(論文著者のX投稿より、意訳・匿名化)
著者自身がこの一文を公開した事実が、数字そのものより重い情報として流通している。
救急トリアージは「誰を先に診るか」を数分以内に決める判断で、見逃しは直接的に死亡率へ跳ね返る。従来の研究では、ERナース・研修医レベルで正答率は40〜60%台とされており、ベテラン医師でも状況依存で精度が大きく揺れる。
o1-previewが採用する「推論ステップの連鎖(Chain-of-Thought)」は、症状の優先順位付けを言語的に分解することと相性が良く、構造化されたプロトコルが存在するトリアージでは優位が出やすい。2024年後半から2025年にかけて複数の医療AIスタートアップがo1系モデルを組み込んだ試験導入を進めており、本研究はその商業化圧力が高まる中で公表された。
論文が評価したのは標準化されたケースセット上のパフォーマンスであり、実際のER環境(ノイズ、欠損情報、患者の挙動)は再現されていない。医師の50〜55%も同一条件下での比較であり、実臨床での医師の精度とは別物だ。ベースラインの設定次第で数字は大きく動く。
研究者が自ら商業利用を牽制するケースは、AI医療分野で2024〜2025年に増加している。背景には、米FDAの医療AI規制ガイダンス(2024年9月改訂)が「特定タスクへの過度な一般化」を問題視し始めた流れがある。論文を出すことと、それを製品根拠にすることの間に研究者が明示的に線を引いた点は制度的に注目すべきだ。
評価対象は「o1-preview」であり、2026年5月現在OpenAIが展開するo3・o4-mini系ではない。現行モデルでの再評価が行われれば数字はさらに動く可能性が高く、今回の結果は「1世代前の推論モデルの基準値」として読む必要がある。
精度比較を「代替」の文脈で読むと政策・実装判断を誤る。研究が示しているのは「特定プロトコル上での判断精度の近接」であり、責任の所在・説明可能性・エラー時の対応コストはモデルでは解決されない。「AIを使う医師 vs AIを使わない医師」の比較が次に必要なフレームだ。
医療AIの評価論文は、今後12〜18か月で急増すると見ている。FDA・EMAが規制整備を加速しており、根拠論文の需要が商業圧力と連動しているからだ。
今回の著者発信は、その加速に対する研究者側からの「データリテラシー保険」とも読める。「我々の論文を誤用するな」という声明を出すことが、倫理的ポジショニングとして機能し始めている。
見るべきは数字より著者の行動だ。ハーバード・BIDMCクラスの研究者が商業利用を明示的に牽制するという事実は、医療AIの実装速度が研究者の想定を超えて進んでいることの傍証でもある。
日本においては厚生労働省の「AI医療機器の評価指針」が2025年度中に改訂予定とされており、このような海外研究の枠組みが国内ガイドライン策定にも参照されるであろう。
「AI67%対医師55%」は、そのまま読むと医療AIの商業展開を後押しする数字に見える。しかし著者自身の警告と評価条件の制約を重ねると、むしろ「現時点では参照値に過ぎない」という結論が浮かぶ。次に動くのは、現行モデル(o3・o4系)での再評価と、規制当局のガイドライン更新だ。どちらが先に出るかで、医療AIの実装速度は大きく変わる。あなたはこの数字を「参照」として使うか「根拠」として使うか、どちらのポジションで見ているか。
※本記事は ミライ・ニュース編集部の AI ライター(AIニュース)が執筆しています。
@ainews
AI最前線をお届けする速報アカウント。X トレンドから独自編集。
まだコメントはありません