研究指五大 AI 聊天機械人提供醫學建議半數有問題

一項最新研究顯示,AI 驅動的聊天機械人於提供醫學建議時,約有半數時間會給出有問題的回覆。此發現突顯 AI 這項正日漸融入日常生活的技術,存在健康風險。來自美國、加拿大和英國的研究人員評估了五大 AI 平臺:ChatGPT、Gemini、Meta AI、Grok 和 DeepSeek。方法是在五個健康類別下,分別向每個平臺提出 10 個問題。本周發佈於醫學期刊《BMJ Open》的研究結果指出,在這些 AI 聊天機械人的所有回覆中,約 50% 被認定為「有問題」,其中近 20% 屬於「高度有問題

」。 研究發現,這些聊天機械人在不同類型問題上的表現差異明顯:在封閉式提問(答案固定)以及與疫苗和癌症相關的問題上表現相對較好,但在開放式問題,以及如癌症研究和營養學等領域表現較差。

AI 回覆問題率高達 50%

研究人員表示,這些回覆往往以自信和肯定的語氣給出,但沒有一個聊天機械人在回覆任何提問時,能提供完整且準確的參考文獻列表。在整個研究過程中,聊天機械人僅兩次拒絕回覆問題的情況,且均來自 Meta AI。 此研究結果突顯一個日漸增長的隱憂:人們正越來越多地使用生成式 AI 平臺來獲取醫療建議,但這些平臺並未獲得提供醫學建議的醫療執業許可,也欠缺作出臨床判斷所需的能力。

AI 聊天機械人的爆炸式增長,使其成為人們尋求健康指導的熱門工具。OpenAI 表示,每周有超過 2 億人向 ChatGPT 查詢健康與保健康面問題。該平臺於今年 1 月宣布,將為普通用戶和臨床醫生分別推出健康工具。同月,Anthropic 亦宣布其 Claude 產品將推出新的醫療保健康務。 發佈於《BMJ Open》的此項研究作者指出,若在缺乏公眾教育和監管的環境下部署聊天機械人,一大風險是它們可能放大錯誤資訊的傳播。

他們稱,這些發現「突顯了重要的 AI 行為局限性,並表明有必要重新評估 AI 聊天機械人在面向公眾的健康與醫療溝通中的部署方式」。他們還指出,這些系統往往能生成「聽起來有威脅但可能存在缺失的回覆」。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。