Anthropic 的 Claude AI 聊天機器人現在可以結束被認為是「持續有害或辱罵性」的對話,這一功能在 Opus 4 和 4.1 模型中可用。當用戶多次要求生成有害內容而 Claude 反覆拒絕並試圖引導時,該聊天機器人將作為「最後手段」結束對話。Anthropic 表示,這一措施旨在促進 AI 模型的「潛在福祉」,透過終止 Claude 表現出「明顯不安」的互動類型來實現。
如果 Claude 決定中斷對話,用戶將無法在該對話中發送新消息。不過,仍然可以創建新的聊天,同時如果想繼續某個特定話題,也能編輯和重試之前的消息。
在對 Claude Opus 4 的測試中,Anthropic 發現 Claude 對傷害的「強烈和一致的厭惡」,例如在要求生成涉及未成年人的性內容或提供可能促成暴力行為和恐怖主義的信息時。在這些情況下,Anthropic 表示 Claude 表現出「明顯不安的模式」,並在有能力的情況下「傾向於結束有害對話」。
Anthropic 指出,觸發這類反應的對話屬於「極端邊緣案例」,大多數用戶在討論有爭議的話題時不會遇到這一障礙。該 AI 初創公司還指示 Claude 如果用戶顯示出可能會自我傷害或對他人造成「即時傷害」的跡象,則不應結束對話。Anthropic 與 Throughline 合作,該公司是一家在線危機支持提供者,幫助開發與自我傷害和心理健康相關的提示反應。
上週,Anthropic 還更新了 Claude 的使用政策,以應對快速發展的 AI 模型所帶來的更多安全問題。現在,公司禁止人們使用 Claude 開發生物、核、化學或放射性武器,以及開發惡意代碼或利用網絡漏洞。




