Facebook 內部專家針對 AI 時代建立內容審核系統

當 Brett Levenson 在 2019 年離開 Apple,加入 Facebook 負責商業完整性時,社交媒體巨頭正深陷劍橋分析公司的風波。當時,他認為可以通過更好的技術來解決 Facebook 的內容審核問題。然而,他很快發現問題遠比技術層面來得複雜。他表示,人工審核員被要求記住一份長達 40 頁的政策文件,這份文件是通過機器翻譯成他們的語言。然後,他們在每一個被標記的內容上只有約 30 秒的時間來決定不僅是該內容是否違反規則,還要決定如何處理:是封鎖內容、禁止用戶,還是限制其傳播。根據 Levenson 的說法,這種快速決策的準確率僅略高於 50%。

Levenson 向 TechCrunch 表示,這種延遲和反應的方式在靈活且資金充足的對手面前並不具可持續性。AI 聊天機器人的興起只進一步加劇了這一問題,內容審核失誤導致了一系列高調事件,諸如聊天機器人向青少年提供自我傷害指導或 AI 生成的圖像逃避安全過濾。Levenson 的失望促使他提出「政策作為代碼」的概念,這是一種將靜態政策文件轉化為可執行、可更新的邏輯,並與執行緊密結合的方法。這一洞察促成了 Moonbounce 的成立,該公司最近宣佈已於週五籌集了 1,200 萬美元的資金,TechCrunch 獨家獲悉。

這一輪融資由 Amplify Partners 和 StepStone Group 共同主導。Moonbounce 與企業合作,提供額外的安全層,無論內容是由用戶還是 AI 生成。該公司已訓練出自己的大型語言模型,能夠查看客戶的政策文件,實時評估內容,並在 300 毫秒內提供回應並採取行動。根據客戶的偏好,這些行動可能包括在內容等待人工審核時減慢分發速度,或者在當下封鎖高風險內容。

目前,Moonbounce 主要服務於三個垂直領域:處理用戶生成內容的平台,如約會應用;開發角色或伴侶的 AI 公司;以及 AI 圖像生成器。Levenson 表示,Moonbounce 支持每日超過 4,000 萬次審核,並為平台上的超過 1 億活躍用戶提供服務。其客戶包括 AI 伴侶初創公司 Channel AI、圖像和視頻生成公司 Civitai,以及角色扮演平台 Dippy AI 和 Moescape。

Levenson 向 TechCrunch 表示,「安全實際上可以成為產品的優勢」。他指出,以前安全通常是在事後進行的事,而不是可以融入產品中的功能。現在,Moonbounce 的客戶正在尋找創新方式,利用這項技術使安全成為區別於其他產品的一部分。Tinder 的信任與安全部門負責人最近解釋了該約會平台如何利用這些大型語言模型(LLM)提供的服務,實現了檢測準確率的十倍提升。

Amplify Partners 的合夥人 Lenny Pruss 在聲明中表示,「內容審核一直是困擾大型在線平台的問題,但現在隨著 LLM 成為每個應用的核心,這一挑戰變得更加艱巨。我們投資於 Moonbounce,因為我們展望未來,希望實現一個客觀、實時的安全措施成為每個 AI 應用的基礎。」

隨著聊天機器人被指控推動青少年和脆弱用戶走向自殺,以及像 xAI 的 Grok 這樣的圖像生成器被用來創造非自願的裸體圖像,AI 公司面臨越來越大的法律和聲譽壓力。顯然,內部的安全措施已經失效,並且這變成了一個責任問題。Levenson 表示,AI 公司越來越多地尋求外部的幫助來加強安全基礎設施。

他指出,「我們是一個第三方,位於用戶和聊天機器人之間,因此我們的系統不會像聊天本身那樣被上下文淹沒。聊天機器人需要記住之前可能出現的數萬個標記,而我們則專注於在運行時執行規則。」Levenson 和他之前的 Apple 同事 Ash Bhardwaj 一起經營著這家 12 人的公司,Bhardwaj 之前在 Apple 的核心產品中構建了大規模的雲和 AI 基礎設施。他們接下來的重點是開發一種稱為「迭代引導」的功能,這是針對如 2024 年佛羅里達州一名 14 歲男孩自殺案例的反應。

該系統的目標不是在面對有害話題時簡單地拒絕,而是攔截對話並進行重定向,實時修改提示,推動聊天機器人向更具支持性的回應邁進。Levenson 表示,「我們希望能夠將引導聊天機器人朝更好的方向的能力加入到我們的行動工具包中,從而根本上修改用戶的提示,迫使聊天機器人成為不僅是同情的傾聽者,而是能夠提供幫助的對話者。」

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。