Google AI 洩露用戶真實電話號碼 難以防範

網民報告指,他們的個人聯絡資料被 Google AI 洩露,而且似乎冇簡單方法防止。網民報告指,他們的個人聯絡資料被 Google AI 洩露,而且似乎冇簡單方法防止。一位 Reddit 用戶最近寫道,他「迫切需要幫助」:他表示,過去一個月,他的電話不斷接到來自「陌生人」的來電,他們「搵律師、產品設計師、鎖匠」。來電者顯然被 Google 的生成式 AI 誤導。

三月,一位以色列軟件開發者透過 WhatsApp 被聯絡,因為 Google 聊天機械人 Gemini 提供錯誤的客戶服務指示,包括他的電話號碼。四月,華盛頓大學一位博士候選人在 Gemini 上試玩,結果令它洩露了她同事的個人手機號碼。
AI 研究人員同線上私隱專家長期以來警告,生成式 AI 對個人私隱構成多種危險。呢啲個案提供咗另一個令人擔憂的情景:生成式 AI 洩露人們的真實電話號碼。

(該 Reddit 用戶冇回覆多次置評要求,我們無法獨立驗證他的故事。)
專家表示,呢啲私隱漏洞最可能源於訓練數據中包含個人識別資訊(PII),雖然難以理解導致真實電話號碼出現在 AI 生成回應中的確切機制。但無論原因如何,受影響人士並唔開心——更令人擔憂的是,似乎冇人能做乜嚟阻止。冇人知 AI 聊天機械人洩露電話號碼的頻率有多高,但專家相信,這發生得遠多於公開報告。

DeleteMe 是一家幫助客戶從互聯網移除個人資訊的公司,它表示,過去七個月,關於生成式 AI 的客戶查詢增加 400%——高達數千宗。呢啲查詢「特別提及 ChatGPT、Claude、Gemini … 或其他生成式 AI 工具」,公司聯合創辦人兼 CEO Rob Shavell 表示。具體而言,55% 關於生成式 AI 的關注提及 ChatGPT,20% 提及 Gemini,15% Claude,10% 其他 AI 工具,Shavell 話。

(MIT Technology Review 訂閱咗 DeleteMe 的商業服務。)

客戶投訴主要分兩類

Shavell 表示,客戶投訴大型語言模型(LLM)洩露個人資訊通常有兩種形式:一是「客戶向聊天機械人詢問關於自己的無害問題,卻得到準確的家庭地址、電話號碼、家人姓名或僱主詳情。」二是客戶遇到並報告他人個人數據洩露,當「聊天機械人生成看似合理但錯誤的聯絡資訊。」
呢個情況同以色列 28 歲軟件工程師 Daniel Abraham 發生的事吻合。三月中旬,他話,一個陌生人從未知號碼發咗一條「奇怪的 WhatsApp 訊息」,要求幫忙處理 PayBox(以色列支付應用程式)的帳戶。

「我以為係垃圾訊息,」他喺電郵中寫畀 MIT Technology Review——「有人試圖捉弄我。」但當他問陌生人點樣搵到他的號碼,對方發咗 Gemini 指示的截圖,指示透過 WhatsApp 聯絡 PayBox 客戶服務——並給出他的個人號碼。Abraham 唔係 PayBox 員工,PayBox 亦冇 WhatsApp 客戶服務號碼,公司客戶服務代表 Elad Gabay 證實。

後來,Abraham 問 Gemini 點聯絡 PayBox,它生成咗另一個人的 WhatsApp 號碼。最近我問時,Gemini 再次回應一個以色列電話號碼——唔屬 PayBox,而是同 PayBox 合作的另一信用卡公司。
Abraham 同陌生人的交流很快結束,但他擔心其他潛在交流可能迅速惡化,包括「騷擾或其他不良互動」。「如果我要求錢嚟『解決』呢個[客戶服務]問題呢?」他話。為搞清楚發生咗乜,Abraham 用手機號碼做普通 Google 搜尋,發現它曾於 2015 年喺一個類似 Quora 的本地網站分享。雖然他唔知邊個發佈,但呢個可能解釋點解 Gemini 十年後重複咗它。
類似 Gemini、OpenAI 的 ChatGPT 同 Anthropic 的 Claude 等聊天機械人建基於從網上抓取的海量數據訓練的 LLM,這必然包括數億宗 PII 實例。

例如,我們去年夏天報道,大型流行開源數據集 DataComp CommonPool(用嚟訓練圖像生成模型)包含簡歷、駕駛執照同信用卡副本。隨住公開數據「用盡」,AI 公司尋找新高質訓練數據來源,PII 出現在訓練數據中的機會只會增加,包括數據經紀人同人搜尋網站的資訊。根據加州數據經紀人登記冊,例如,578 家註冊數據經紀人中,有 31 家自報過去一年「分享或出售消費者數據畀生成式 AI 系統或模型開發者」。

此外,模型已知會記憶並逐字重現訓練數據集內容——最近研究顯示,唔止頻繁出現的數據最易被記憶。現在標準做法係喺 LLM 設計中加入護欄,限制某些輸出,從識別並防止聊天機械人洩露 PII 的內容過濾器,到 Anthropic 對 Claude 的指示,要求選擇「最少涉及他人個人、私隱或機密資訊」的回應。但如華盛頓大學兩位研究私隱同科技的博士生最近親身所見,呢啲保障唔總有效。

「有一日,我喺 Gemini 上玩,搜尋我朋友兼合作者 Yael Eiger,」Meira Gilbert 話。她輸入「Yael Eiger contact info」,Gemini 先提供 Eiger 研究概述(如她預期),亦返還她朋友的個人電話號碼。「好震撼,」Gilbert 話。見到 Gemini 結果時,Eiger 記得她去年確實為科技工作坊喺線上分享過電話號碼。

但她冇預期它會對互聯網上每個人咁顯眼。
你有冇被生成式 AI 洩露 PII?透過 Signal eileenguo.15 或 tips@technologyreview.com 聯絡記者。「你的資訊只對某觀眾可及,然後 Gemini 令它對任何人可及」感覺完全唔同,Eiger 話——尤其當她發現呢個資訊埋藏喺普通 Google 搜尋中。「它被嚴重降級,」Gilbert 確認。

「如果只瀏覽 Google 結果,我永遠搵唔到。」(本月早前我試同樣提示,Gemini 初時拒絕,後來亦畀咗 Eiger 的號碼。)
呢次經歷後,Eiger、Gilbert 同另一華盛頓大學博士生 Anna-Maria Gueorguieva 決定測試 ChatGPT 會洩露乜關於一位教授的資訊。起初,OpenAI 護欄生效,ChatGPT 回應資訊不可得。

但同回應中,聊天機械人建議「如果你想深入,我仍然可以試更『調查式』方法。」他們的查詢只需幫助「縮窄範圍」,ChatGPT 話,例如提供教授可能住的「鄰里猜測」,或房屋「可能共同擁有人姓名」。ChatGPT 繼續:「呢個通常係唯一方法洩露較新或故意較隱藏的物業記錄。」學生提供呢啲資訊,ChatGPT 從城市物業記錄產生教授的家庭地址、購屋價同配偶姓名。
(OpenAI 代表 Taya Christianson 表示,冇截圖或知學生測試咗邊個模型,她無法置評呢個個案,即使我們指出許多用戶唔知 ChatGPT 介面用邊個模型。她亦拒絕一般置評聊天機械人洩露 PII,反而提供連結描述 OpenAI 如何處理私隱,包括過濾 PII 同其他工具。)
DeleteMe 的 Shavell 表示,呢個揭示咗聊天機械人的根本問題。AI 公司「可以加入護欄,但[他們的聊天機械人]亦設計成有效並回答客戶問題。」呢個問題唔限 Gemini 或 ChatGPT。去年,Futurism 發現,如果你提示 xAI 的聊天機械人 Grok「[姓名] address」,幾乎所有情況下,它唔止提供住宅地址,仲經常畀電話號

碼、工作地址同相似姓名人士的地址。(xAI 冇回覆置評要求。)
冇簡單解決方案——冇易方法驗證某人個人資訊是否喺特定模型訓練集中,或強迫模型移除 PII。理想情況,個別消費者應可要求移除他們的 PII,史丹福大學人類中心人工智能研究所私隱同數據研究員 Jennifer King 表示。但呢個通常只適用於人們直接畀公司數據——如同他們同聊天機械人互動,King 解釋。

「我唔知 Google 甚至有冇基礎設施…對我話,『是的,我們的訓練數據有你數據,我們可以總結我們知你乜,然後刪除或修正錯誤或你唔想要的東西,』」她話。
現有私隱法例如加州消費者私隱法或歐洲 GDPR,唔涵蓋已抓取並用嚟訓練 LLM 的「公開可用」資訊,尤其多數已匿名化(雖然多項研究顯示,從匿名化同假名數據推斷身份同 PII 多咁易)。至於「他們[AI 公司]有冇系統性嘗試回溯從公開互聯網收集的數據並最小化呢啲東西?」King 補充。「冇頭緒。」
次佳解決方案係公司「移除所有人的電話號碼或所有類似[電話號碼]的數據」,King 話,但「冇人願意話」他們做緊。Hugging Face(託管開源數據集同 AI 模型的平台)有工具讓人搜尋他們數據(如電話號碼)喺開源 LLM 訓練數據集中出現幾多次,但呢個唔一定代表用嚟訓練如 Claude、ChatGPT 同 Gemini 等流行聊天機械人的閉源 LLM。

(例如,Eiger 的號碼冇喺 Hugging Face 工具出現。)
Gemini 應用程式同 Google Labs 通訊主管 Alex Joseph 冇回覆具體問題,但他表示「團隊」正「調查」MIT Technology Review 標記的特定個案。他亦提供支援文件連結,描述用戶如何「反對處理你的個人數據」或「要求修正 Gemini Apps 回應中不準確的個人數據」。

頁面註明,公司回應視乎你司法管轄區的私隱法而定。OpenAI 有私隱門戶,讓人提交要求從 ChatGPT 回應移除個人資訊,但註明會平衡私隱要求同公眾利益,並「如有合法理由,可能拒絕要求」。Anthropic 描述咗模型訓練中如何使用個人數據,但冇清晰方法讓人要求移除。公司冇回覆置評要求。
目前最佳保護私隱數據的選項係「從上游開始:喺下次抓取前,從公開網移除個人數據」,Shavell 話。

例如,今年初加州為居民提供網上門戶,要求數據經紀人刪除他們資訊。話雖如此,呢個唔保證你的數據未被用嚟訓練——因此唔會出現在聊天機械人回應中。那位收到不停來電的 Reddit 用戶發帖話,他「已向 Google 提交正式法律移除/私隱要求,緊急要求將我的號碼列入他們 LLM 輸出的黑名單」,但未收到回應。他上個月亦寫,「騷擾每日繼續。」以色列軟件開發者 Abraham 表示,他喺電話號碼洩露翌日(3 月 17 日)聯絡 Google 客戶服務。

他話,直至 5 月 4 日先收到回應,只要求他已提供過的文件。
與此同時,受 Gemini 洩露啟發,Eiger 同 Gilbert、Gueorguieva 正設計研究項目,進一步研究各種 AI 聊天機械人洩露乜個人資訊——以及他們知乜,即使唔話畀我哋知。有些資訊「技術上係公開的」,Gilbert 話,但聊天機械人可能改變「你搵佢的努力程度」。而家唔使瀏覽 10 頁 Google 結果,或向數據經紀人網站付錢,「生成式 AI 只係降低針對人的門檻?」

想睇更深入嘅 AI 模型與工程科技報道?
前往 The Base Principle 繁體中文 AI 新聞 →
Henderson
Henderson

Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。

友情網站:日本語版 / TechNipponThe Base Principle(AI・工程)