一項新研究探討大型語言模型在多種醫療情境下的表現,包括真實急症室個案——其中至少一個模型似乎比人類醫生更準確。這項研究本週在《Science》期刊發佈,由哈佛醫學院(Harvard Medical School)和貝絲以色列女執事醫療中心(Beth Israel Deaconess Medical Center)的醫生及電腦科學家領導的研究團隊進行。研究人員表示,他們進行多項實驗,以衡量 OpenAI 的模型與人類醫生的比較。
OpenAI o1 模型在急症室分診表現突出
在其中一項實驗中,研究人員聚焦於 76 名到訪貝絲以色列急症室的病人,將兩名值班醫生的診斷與 OpenAI 的 o1 和 4o 模型生成的診斷進行比較。這些診斷由另外兩名值班醫生評估,他們不知道哪些來自人類、哪些來自 AI。「在每個診斷觸點,o1 要麼比兩名值班醫生略勝一籌,要麼表現相當,而 4o 亦然」,研究指出,並補充道差異「在首個診斷觸點(初始急症室分流)尤為明顯,此時病人資訊最少,但作出正確決定的急迫性最高」。
在哈佛醫學院關於此研究的新聞稿中,研究人員強調他們「完全沒有預處理數據」——AI 模型獲提供與電子醫療記錄中每個診斷時相同資訊。憑此資訊,o1 模型在 67% 分流個案中提供「完全正確或非常接近的診斷」,相對於一名醫生正確或接近的比率為 55%,另一名則為 50%。「我們將 AI 模型幾乎對所有基準進行測試,它超越了先前模型及我們的醫生基準」,哈佛醫學院 AI 實驗室負責人兼研究主要作者 Arjun Manrai 在新聞稿中表示。
需要澄清的是,研究並未聲稱 AI 已準備好在急症室作出生死攸關的決定。相反,它指出結果顯示「迫切需要前瞻性試驗,以在真實病人護理環境中評估這些技術」。研究人員亦註明,他們僅研究模型在獲提供文字資訊時的表現,並指「現有研究顯示,當前基礎模型在非文字輸入上的推理能力更受限」。貝絲以色列醫生兼研究主要作者 Adam Rodman 向《衛報》(the Guardian)警告,目前「AI 診斷缺乏正式問責框架」,病人仍「希望人類引導他們度過生死決定及艱難治療選擇」。




