研究指五大 AI 聊天機械人提供醫學建議半數有問題

Henderson
15/04/2026

一項最新研究顯示，AI 驅動的聊天機械人於提供醫學建議時，約有半數時間會給出有問題的回覆。此發現突顯 AI 這項正日漸融入日常生活的技術，存在健康風險。來自美國、加拿大和英國的研究人員評估了五大 AI 平臺：ChatGPT、Gemini、Meta AI、Grok 和 DeepSeek。方法是在五個健康類別下，分別向每個平臺提出 10 個問題。本周發佈於醫學期刊《BMJ Open》的研究結果指出，在這些 AI 聊天機械人的所有回覆中，約 50% 被認定為「有問題」，其中近 20% 屬於「高度有問題

」。研究發現，這些聊天機械人在不同類型問題上的表現差異明顯：在封閉式提問（答案固定）以及與疫苗和癌症相關的問題上表現相對較好，但在開放式問題，以及如癌症研究和營養學等領域表現較差。

AI 回覆問題率高達 50%

研究人員表示，這些回覆往往以自信和肯定的語氣給出，但沒有一個聊天機械人在回覆任何提問時，能提供完整且準確的參考文獻列表。在整個研究過程中，聊天機械人僅兩次拒絕回覆問題的情況，且均來自 Meta AI。此研究結果突顯一個日漸增長的隱憂：人們正越來越多地使用生成式 AI 平臺來獲取醫療建議，但這些平臺並未獲得提供醫學建議的醫療執業許可，也欠缺作出臨床判斷所需的能力。

AI 聊天機械人的爆炸式增長，使其成為人們尋求健康指導的熱門工具。OpenAI 表示，每周有超過 2 億人向 ChatGPT 查詢健康與保健康面問題。該平臺於今年 1 月宣布，將為普通用戶和臨床醫生分別推出健康工具。同月，Anthropic 亦宣布其 Claude 產品將推出新的醫療保健康務。發佈於《BMJ Open》的此項研究作者指出，若在缺乏公眾教育和監管的環境下部署聊天機械人，一大風險是它們可能放大錯誤資訊的傳播。

他們稱，這些發現「突顯了重要的 AI 行為局限性，並表明有必要重新評估 AI 聊天機械人在面向公眾的健康與醫療溝通中的部署方式」。他們還指出，這些系統往往能生成「聽起來有威脅但可能存在缺失的回覆」。

Henderson

Henderson 是 TechRitual Hong Kong 科技編輯，專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來，累計撰寫數千篇科技報導及產品評測，內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。