哈佛研究指 AI 診斷準確度勝急症室醫生

一項新研究探討大型語言模型在多種醫療情境下的表現，包括真實急症室個案——其中至少一個模型似乎比人類醫生更準確。這項研究本週在《Science》期刊發佈，由哈佛醫學院（Harvard Medical School）和貝絲以色列女執事醫療中心（Beth Israel Deaconess Medical Center）的醫生及電腦科學家領導的研究團隊進行。研究人員表示，他們進行多項實驗，以衡量 OpenAI 的模型與人類醫生的比較。

OpenAI o1 模型在急症室分診表現突出

在其中一項實驗中，研究人員聚焦於 76 名到訪貝絲以色列急症室的病人，將兩名值班醫生的診斷與 OpenAI 的 o1 和 4o 模型生成的診斷進行比較。這些診斷由另外兩名值班醫生評估，他們不知道哪些來自人類、哪些來自 AI。「在每個診斷觸點，o1 要麼比兩名值班醫生略勝一籌，要麼表現相當，而 4o 亦然」，研究指出，並補充道差異「在首個診斷觸點（初始急症室分流）尤為明顯，此時病人資訊最少，但作出正確決定的急迫性最高」。

在哈佛醫學院關於此研究的新聞稿中，研究人員強調他們「完全沒有預處理數據」——AI 模型獲提供與電子醫療記錄中每個診斷時相同資訊。憑此資訊，o1 模型在 67% 分流個案中提供「完全正確或非常接近的診斷」，相對於一名醫生正確或接近的比率為 55%，另一名則為 50%。「我們將 AI 模型幾乎對所有基準進行測試，它超越了先前模型及我們的醫生基準」，哈佛醫學院 AI 實驗室負責人兼研究主要作者 Arjun Manrai 在新聞稿中表示。

需要澄清的是，研究並未聲稱 AI 已準備好在急症室作出生死攸關的決定。相反，它指出結果顯示「迫切需要前瞻性試驗，以在真實病人護理環境中評估這些技術」。研究人員亦註明，他們僅研究模型在獲提供文字資訊時的表現，並指「現有研究顯示，當前基礎模型在非文字輸入上的推理能力更受限」。貝絲以色列醫生兼研究主要作者 Adam Rodman 向《衛報》（the Guardian）警告，目前「AI 診斷缺乏正式問責框架」，病人仍「希望人類引導他們度過生死決定及艱難治療選擇」。

AI 內容聲明：本文由 AI 工具輔助撰寫初稿，經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正，歡迎聯絡我們。

哈佛研究指 AI 診斷準確度勝急症室醫生

OpenAI o1 模型在急症室分診表現突出

推薦內容

關於我們