哈佛研究證實 AI 喺緊急心臟分折環境下診斷準確度勝過真人醫生

在醫學劇中，從《急診室的羅馬》裡的喬治·克魯茲到《急診室風雲》中的喬亞·凱爾，急診科醫生長期被塑造成救人性命的英雄形象。但一項來自哈佛的最新研究顯示，在高壓的急診分析情境中，人工智能系統在診斷準確性上已經超越了人類醫生，這一結果被研究者形容為將「重塑醫學」的技術性轉折點。這項發表在《科學》期刊上的研究，由哈佛醫學院團隊主導，獨立專家認為，它標誌著人工智能在臨牆推理能力上的「真正進步」，而非僅通過考試或解決人工智能構建的測驗題。

研究採用了大規模試驗設計，將數百名醫生與一套大型語言模型（LLM）進行對比，重點評估在急診分析和長期治療計劃等關鍵場景中的表現差異。

AI 在真實病例中勝出人類醫生

在其中一項核心實驗中，研究團隊選取了波士頓一所醫院急診室的 76 名真實就診病例。AI 系統與一組由兩名人類醫生組成的團隊，被提供完全相同的標準電子病歷記錄，包括生命體徵數據、人口學信息以及護士對就診原由的口頭簡要描述。在僅憑這些有限信息進行初步診斷的情境下，AI 在 67% 的病例中給出了正確或非常接近的診斷，而人類醫生的正確率僅在 50%–55% 之間。

研究指出，AI 的優勢在信息極度有限、需要迅速作出判斷的分析場景中表現得尤為突出。當為 AI 和醫生提供更為詳盡的臨牆信息後，AI（使用的是 OpenAI 的 o1 推理模型）的診斷正確率進一步提升至 82%，而人類專家的正確率則在 70%–79% 之間，不過這一差異在統計學上並不顯著。除了急診分析外，AI 在制定長期治療方案方面同樣展現出優於醫生的表現。在另一項試驗中，研究團隊讓 AI 與 46 名醫生共同審核五個臨牆病例，任務包括設計抗生素使用方案以及計劃入院相關考量流程等長期管理計劃。

結果顯示，AI 給出的治療方案得分顯著更高，評分為 89%，而依賴傳統資源（如搜索引擎）的醫生得分僅為 34%。儘管如此，研究者強調整個階段仍未到「宣告急診醫生下崗」的時刻。這項研究並未比較在可被文本化的病歷數據層面，AI 與人類的診斷能力，並未納入許多在真實臨牆情境中至關重要的信號，例如病人的痛苦表情、情緒狀態、肢體語言乃至與家屬互動等非文本信息。換言之，這項研究中，AI 更接近一名基於紙面資料給出第二意見的「幕後前醫生」。

「我不認為我們的發現意味著 AI 會取代醫生。」研究的第一作者之一、哈佛醫學院 AI 實驗室負責人阿俊·曼賴（Arjun Manrai）表示。「我認為它意味著，我們正在見證一種極其深刻的影響的技術變革，而這種變革將重塑整個醫療體系。」同為主要作者的亞當·羅德曼（Adam Rodman）則是波士頓貝絲以色列女執事醫療中心的一名臨牆醫生，他稱大型語言模型是「近廿年最具影響力的技術之一」。

他預言，在未來十年，AI 不會取代醫生，而是將與醫生、病人共同構成一種新的「三方共護模式」——「醫生、病人與人工智能系統」。研究中還呈現出一個頗具代表性的臨牆病例：一名病人因腹部血腫和症狀惡化來到醫院。人類醫生最初判斷是抗凝藥物治療失敗，導致症狀進展；但 AI 在閱覽病史後注意到了關鍵點——病人曾患紅斑狼瘡，這種自身免疫疾病也可能引發腹膜炎。經過進一步檢查，AI 的推斷被證明是正確的。

AI 在臨牆中的應用並非停留在實驗室階段，已有大量醫生在實踐中使用。根據美國醫學會最近發表的調查，近五分之一的美國醫生已在診斷過程中引入 AI 輔助工具。在英國，皇家內科醫學學會的一項最新調查顯示，16% 的醫生每天使用此類技術，另有 15% 每週使用一次或多次，其中「臨牆決策支持」是最常見的使用場景之一。不過，英國醫生在接受調查時也表達了對 AI 的高度警惕，特別是對 AI 誤診風險和責任歸屬問題的憂慮。

儘管全球範圍內已有數十億美元湧入醫療 AI 創業者，但一旦 AI 出錯，責任如何界定、由誰承擔後果，仍是亟待解決的制度空白。「目前並不存在一個正式的問責框架。」羅德曼指出，同時他強調，病人在面對生死抉擇或複雜治療方案時，「終究還是希望由人類來引導、陪伴和解釋」。來自自由大學醫學信息學中心聯合主任埃文·哈里遜（Ewen Harrison）教授認為，這項研究極具重要意義，因為它表明「這些系統不再只是通過醫學考試或應對人工智能構建的測驗題」。

在他看來，AI 正逐步成為臨牆醫生的有用「第二意見工具」，特別適用於需要全面推理潛在診斷、避免漏診關鍵病因的場景。同時，英國謝菲爾德大學數學與物理科學學院副教授魏興（Wei Xing）也提醒，研究中的部分結論顯示，醫生在與 AI 協作時，可能會在不自覺中對 AI 結論產生依賴，弱化獨立思考。「隨著 AI 在臨牆環境中的常規使用，這種依賴可能會進一步增強。」他指出。

魏興還強調，研究並未闡明 AI 在哪些類型病人中表現更差，例如是否對老年病人或非英語母語病人的診斷更為吃力，這些都是評估安全性時不可忽視的問題。因此，儘管哈佛試驗結果令人振奮，但它並未證明 AI 已安全到可以常規獨立用於臨牆診治，更不意味著應轉向免費 AI 工具以取代專業醫護建制。在可預見的未來，AI 更可能作為一種高性能「智能輔診器」和「第二大腦」，嵌入由人類主導的醫療體系中，推動診治更精準、高效，同時也將關於責任、倫理與信任的新問題擺到社會面前。

AI 內容聲明：本文由 AI 工具輔助撰寫初稿，經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正，歡迎聯絡我們。

哈佛研究證實 AI 喺緊急心臟分折環境下診斷準確度勝過真人醫生

AI 在真實病例中勝出人類醫生

推薦內容

關於我們