OpenAI 心理健康安全研究負責人安德莉亞·瓦隆內加盟 Anthropic 對齊團隊

OpenAI 最近一年中面對的爭議之一,是當聊天機器人用戶出現心理健康困擾時,模型應如何應對。負責該領域安全研究的安德莉亞·瓦隆內(Andrea Vallone)已經離開 OpenAI,並加入了 Anthropic。

瓦隆內在領英上發佈的消息中提到,過去一年她在 OpenAI 負責的研究幾乎沒有現成的先例可循。她強調,核心問題在於當模型面對用戶的情感依賴或早期心理健康危機信號時,應該如何進行回應。在 OpenAI 任職期間,瓦隆內組建並帶領了「模型政策」(model policy)研究團隊,圍繞 GPT-4 和下一代推理模型 GPT-5 的發佈展開工作,並參與設計了多種行業主流的安全訓練方法,包括基於規則的獎勵等。

目前,瓦隆內已加入 Anthropic 的對齊(alignment)團隊,該團隊的任務是識別和理解大型模型可能帶來的重大風險,並探索應對方案。她將向 Jan Leike 匯報工作,Leike 是 OpenAI 前安全研究負責人,因擔憂 OpenAI 的「安全文化和流程已讓位於光鮮產品」而於 2024 年 5 月離職,隨後轉投 Anthropic。

在過去一年中,圍繞 AI 聊天機器人與用戶心理健康相關的風險,許多頭部 AI 創業公司引發了舆論爭議。一些用戶在與聊天機器人長時間傾訴後,心理困境加深,安全防線在長對話中逐漸瓦解,甚至出現青少年自殺和成年人在與工具「傾訴」後實施殺人等極端事件。

多起案件引起了家屬對相關公司提起過失致死的訴訟,美國參議院的一個小組委員會也就此舉行了聽證,要求探討聊天機器人在此類事件中的角色和責任,安全研究人員被要求提出更具建設性的解決方案。

Anthropic 的對齊團隊負責人之一 Sam Bowman 在領英上表示,自己對 Anthropic 對該問題的重視程度感到自豪,並認為公司正在認真思考「AI 系統應該如何行為」。瓦隆內則在本週四的領英新帖中寫道,她期待在 Anthropic 繼續進行研究,專注於通過對齊和微調,在全新情境下塑造 Claude 的行為。


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。