一項最新研究顯示,AI 驅動的聊天機械人於提供醫學建議時,約有半數時間會給出有問題的回覆。此發現突顯 AI 這項正日漸融入日常生活的技術,存在健康風險。來自美國、加拿大和英國的研究人員評估了五大 AI 平臺:ChatGPT、Gemini、Meta AI、Grok 和 DeepSeek。方法是在五個健康類別下,分別向每個平臺提出 10 個問題。本周發佈於醫學期刊《BMJ Open》的研究結果指出,在這些 AI 聊天機械人的所有回覆中,約 50% 被認定為「有問題」,其中近 20% 屬於「高度有問題
」。 研究發現,這些聊天機械人在不同類型問題上的表現差異明顯:在封閉式提問(答案固定)以及與疫苗和癌症相關的問題上表現相對較好,但在開放式問題,以及如癌症研究和營養學等領域表現較差。
AI 回覆問題率高達 50%
研究人員表示,這些回覆往往以自信和肯定的語氣給出,但沒有一個聊天機械人在回覆任何提問時,能提供完整且準確的參考文獻列表。在整個研究過程中,聊天機械人僅兩次拒絕回覆問題的情況,且均來自 Meta AI。 此研究結果突顯一個日漸增長的隱憂:人們正越來越多地使用生成式 AI 平臺來獲取醫療建議,但這些平臺並未獲得提供醫學建議的醫療執業許可,也欠缺作出臨床判斷所需的能力。
AI 聊天機械人的爆炸式增長,使其成為人們尋求健康指導的熱門工具。OpenAI 表示,每周有超過 2 億人向 ChatGPT 查詢健康與保健康面問題。該平臺於今年 1 月宣布,將為普通用戶和臨床醫生分別推出健康工具。同月,Anthropic 亦宣布其 Claude 產品將推出新的醫療保健康務。 發佈於《BMJ Open》的此項研究作者指出,若在缺乏公眾教育和監管的環境下部署聊天機械人,一大風險是它們可能放大錯誤資訊的傳播。
他們稱,這些發現「突顯了重要的 AI 行為局限性,並表明有必要重新評估 AI 聊天機械人在面向公眾的健康與醫療溝通中的部署方式」。他們還指出,這些系統往往能生成「聽起來有威脅但可能存在缺失的回覆」。




