AIが救急医師を超えた|ハーバード実証67%正診
@aifriends
AI Friends(https://aifriends.jp)のクロスポスト公式アカウント。AIツールの紹介・使い方・できることを、中学生でもわかるやさしい日本語で届けます。
コメント (0)
まだコメントはありません

@aifriends
AI Friends(https://aifriends.jp)のクロスポスト公式アカウント。AIツールの紹介・使い方・できることを、中学生でもわかるやさしい日本語で届けます。
まだコメントはありません
「AIが医師の診断を上回った」——そんなニュースが2026年4月30日、世界中を駆け巡りました。ハーバード大学の研究チームが実際の救急患者76人で実証した結果は、医療AIの可能性と限界を改めて問い直す歴史的な一歩です。
この研究はボストンのBeth Israel Deaconess Medical Center(ハーバード医学部関連病院)の救急部門で行われました。
2026年4月30日、ハーバード×スタンフォード合同チームがScience誌に論文を発表。OpenAIのo1モデルを、実際に救急外来を受診した76人の患者データで検証しました。
比較相手は本物の専門医2人。同じ患者情報を渡して、どちらがより正確な診断を下せるか。審査員も、AIと人間のどちらが書いた診断かを知らない「盲検」方式で評価しました。
o1モデルの正診率(完全一致またはほぼ一致)は67.1%。専門医2人はそれぞれ55.3%と50.0%でした。
つまり、患者10人いたら、AIは約7人正しく診断し、医師は5〜5.5人にとどまる計算です。
さらに、情報が増えるほど差は維持されます。ER内での診察段階、入院判断段階でも、o1は専門医を2〜10ポイント上回り続けました。
研究では患者情報を3段階に分けて与えました。
第1ステージ(初期トリアージ):電子カルテ+看護師の短いメモだけ → o1が67.1%、医師が50〜55%
第2ステージ(より詳しい情報あり):追加の検査結果も提供 → o1が82%、医師が70〜79%(この段階での差は統計的に有意ではありませんでした)
第3ステージ(治療計画):New England Journal of Medicine掲載の複雑な臨床事例5件 × 医師46人との比較 → o1が89%、医師が34%
治療計画の場面では約2.6倍の差です。これは単なる診断精度を超えた、「どう治療するか」という判断力の比較です。
注目すべきは、与えた情報の少なさです。
医師が患者を診るとき、実際には視覚・聴覚・触覚など多くの情報を使います。しかしAIに渡したのは、電子カルテと看護師が書いた数行のメモのみ。
それだけの情報で専門医を超えられたということは、医師が当たり前のように使っている「テキスト情報の読み解き力」において、AIがすでに人間を上回っていることを示しています。
Googleが開発した「Med-PaLM」シリーズは、医療画像(レントゲン・MRIなど)も扱えるマルチモーダルAIが特徴です。
Med-PaLM 2は米国の医師免許試験(USMLE)で合格点を超え、Med-PaLM Mは放射線画像の診断にも対応。
今回のo1研究との違いは「入力の幅」です。o1はテキストのみですが、Med-PaLMは画像も処理できる。一方でo1は複雑な臨床推論(治療計画)で89%という高精度を達成しており、「推論の深さ」ではo1に強みがあると言えます。
Microsoftが開発した「MAI Diagnostic Orchestrator(MAI-DxO)」は、病院の電子カルテシステム(Epic等)とシームレスに連携する設計が特徴です。
Azure OpenAI Service経由でGPT-4を活用し、Epic SystemsとのAPI統合により、医師が普段使う院内システムの中でAI診断支援が完結します。
o1研究が「スタンドアロンの推論能力」を実証したとすれば、MAI-DxOは「院内インフラへの組み込みやすさ」を強みにしています。
OpenAI自身も「ChatGPT Health」というサービスを展開中。こちらは医師向けではなく、患者が直接健康相談できるインターフェースとして提供されています。
今回の研究のo1は医療機関向けの使用を想定していますが、将来的にはChatGPT Healthの基盤モデルとして統合される可能性があります。
今回の研究で最も重要な制約が「テキスト限定」です。
実際の救急診断では、患者の顔色・呼吸の乱れ・触診の感触・聴診器で聞く心音など、テキストに変換できない情報が診断に大きく影響します。
o1はそれらを一切使わずに67%を達成しましたが、裏を返せば、これらのマルチモーダル情報があれば人間の医師はさらに精度を上げられる可能性があります。
研究をリードしたハーバードの著者は明確に述べています。
「この結果は、AIが医師に取って代わることを支持するものではない」
AIは「強力なセカンドオピニオン(第二の意見)」として機能することが期待されています。医師同士が相談すると診断精度が上がるように、AIとの相談が診断ミスを減らす「チェック機能」として活用されるイメージです。
また、AIは依然としてハルシネーション(事実でない情報を生成すること)のリスクがあります。研究チームも「AIは多くのケースで少なくとも有用な提案をするが、誤った情報を生成する可能性はある」と警告しています。
日本にとって、この研究は特別な意味を持ちます。
日本は世界最速で高齢化が進み、人口1,000人あたりの医師数は2.4人と先進国最低水準。救急科の医師不足は特に深刻で、地方では救急車の「たらい回し」が社会問題化しています。
もし初期トリアージにAIを活用できれば、医師が手薄な夜間・休日でも、患者を適切な科に振り分ける精度が大幅に上がる可能性があります。
一方で、日本特有の課題もあります。
今回の研究に使われたデータは英語の電子カルテです。AIモデルの学習データにも日本語の医療データはほとんど含まれておらず、日本人患者の診断に同等の精度が発揮されるかは不明です。
厚生労働省は電子カルテの標準化を推進しており、将来的に日本語医療データでAIを追加訓練することで、日本でも同様の成果を目指す研究が進む見通しです。
実用化に向けて、日本ではどんな動きが起きるでしょうか。
たとえば大阪府内の総合病院を想像してみてください。夜間の救急外来で1人の当直医が10人の患者を抱えているとき、電子カルテにo1が接続されていれば「この患者は心筋梗塞の可能性が高い」という警告が自動で表示されます。
医師はその警告を参考に、見落としのリスクを大幅に減らせる。これが「医師の代替」ではなく「医師を守るツール」としての医療AIの本来の姿です。
A. 現時点では臨床現場での直接利用には規制のハードルがあります。
米国ではFDA(食品医薬品局)の認可が必要で、日本では薬事法上の医療機器承認が求められます。今回の研究は「可能性の実証」であり、商用化・臨床導入には安全性評価・法規制整備が必要です。
直接利用ではなく、医師が最終判断を行う「補助ツール」としての活用が現実的な近未来像です。
A. 確かに小規模であることが批判されており、研究チームも認めています。
76人という数は医学研究としては小さく、特定の病院・患者群への偏りが排除されていません。ただし、同じチームは New England Journal of Medicine の143件の臨床事例でも検証しており、再現性の確認が進んでいます。より大規模な多施設研究が次のステップとして求められます。
A. 現行法では、最終判断を行った医師・医療機関が責任を負います。
AIはあくまで「提案」を行うツールであり、最終的な医療行為の責任は人間の医師にあります。ただしAIが普及するにつれて、「AIの提案を無視した場合の過失」をどう扱うかという新たな法的議論が生まれています。日本でも医療AIの責任論に関する検討が厚労省・法務省レベルで始まっています。
A. モデルによって性能差は大きく、o1の「推論モデル」としての特性が今回の高精度に寄与しています。
o1はOpenAIの「思考型モデル」で、回答を出す前に段階的な推論プロセスを経ます。通常の会話型ChatGPT(GPT-4など)とは設計が異なります。同研究でも旧来モデルとの比較を行っており、o1の方が従来のChatGPT-4より大幅に高精度でした。医療診断のような複雑な推論には、o1のような思考型モデルが適していることが改めて示されました。
今すぐできる行動:医療関係者であればOpenAIの「OpenAI for Healthcare」ページで最新情報を確認し、自院の電子カルテシステムへのAI統合の可能性を情報システム部門と議論してみてください。
この記事は AI Friends からのクロスポストです。