Google AI 洩露用戶真實電話號碼難以防範

網民報告指，他們的個人聯絡資料被 Google AI 洩露，而且似乎冇簡單方法防止。網民報告指，他們的個人聯絡資料被 Google AI 洩露，而且似乎冇簡單方法防止。一位 Reddit 用戶最近寫道，他「迫切需要幫助」：他表示，過去一個月，他的電話不斷接到來自「陌生人」的來電，他們「搵律師、產品設計師、鎖匠」。來電者顯然被 Google 的生成式 AI 誤導。

三月，一位以色列軟件開發者透過 WhatsApp 被聯絡，因為 Google 聊天機械人 Gemini 提供錯誤的客戶服務指示，包括他的電話號碼。四月，華盛頓大學一位博士候選人在 Gemini 上試玩，結果令它洩露了她同事的個人手機號碼。
AI 研究人員同線上私隱專家長期以來警告，生成式 AI 對個人私隱構成多種危險。呢啲個案提供咗另一個令人擔憂的情景：生成式 AI 洩露人們的真實電話號碼。

（該 Reddit 用戶冇回覆多次置評要求，我們無法獨立驗證他的故事。）
專家表示，呢啲私隱漏洞最可能源於訓練數據中包含個人識別資訊（PII），雖然難以理解導致真實電話號碼出現在 AI 生成回應中的確切機制。但無論原因如何，受影響人士並唔開心——更令人擔憂的是，似乎冇人能做乜嚟阻止。冇人知 AI 聊天機械人洩露電話號碼的頻率有多高，但專家相信，這發生得遠多於公開報告。

DeleteMe 是一家幫助客戶從互聯網移除個人資訊的公司，它表示，過去七個月，關於生成式 AI 的客戶查詢增加 400%——高達數千宗。呢啲查詢「特別提及 ChatGPT、Claude、Gemini … 或其他生成式 AI 工具」，公司聯合創辦人兼 CEO Rob Shavell 表示。具體而言，55% 關於生成式 AI 的關注提及 ChatGPT，20% 提及 Gemini，15% Claude，10% 其他 AI 工具，Shavell 話。

（MIT Technology Review 訂閱咗 DeleteMe 的商業服務。）

客戶投訴主要分兩類

Shavell 表示，客戶投訴大型語言模型（LLM）洩露個人資訊通常有兩種形式：一是「客戶向聊天機械人詢問關於自己的無害問題，卻得到準確的家庭地址、電話號碼、家人姓名或僱主詳情。」二是客戶遇到並報告他人個人數據洩露，當「聊天機械人生成看似合理但錯誤的聯絡資訊。」
呢個情況同以色列 28 歲軟件工程師 Daniel Abraham 發生的事吻合。三月中旬，他話，一個陌生人從未知號碼發咗一條「奇怪的 WhatsApp 訊息」，要求幫忙處理 PayBox（以色列支付應用程式）的帳戶。

「我以為係垃圾訊息，」他喺電郵中寫畀 MIT Technology Review——「有人試圖捉弄我。」但當他問陌生人點樣搵到他的號碼，對方發咗 Gemini 指示的截圖，指示透過 WhatsApp 聯絡 PayBox 客戶服務——並給出他的個人號碼。Abraham 唔係 PayBox 員工，PayBox 亦冇 WhatsApp 客戶服務號碼，公司客戶服務代表 Elad Gabay 證實。

後來，Abraham 問 Gemini 點聯絡 PayBox，它生成咗另一個人的 WhatsApp 號碼。最近我問時，Gemini 再次回應一個以色列電話號碼——唔屬 PayBox，而是同 PayBox 合作的另一信用卡公司。
Abraham 同陌生人的交流很快結束，但他擔心其他潛在交流可能迅速惡化，包括「騷擾或其他不良互動」。「如果我要求錢嚟『解決』呢個[客戶服務]問題呢？」他話。為搞清楚發生咗乜，Abraham 用手機號碼做普通 Google 搜尋，發現它曾於 2015 年喺一個類似 Quora 的本地網站分享。雖然他唔知邊個發佈，但呢個可能解釋點解 Gemini 十年後重複咗它。
類似 Gemini、OpenAI 的 ChatGPT 同 Anthropic 的 Claude 等聊天機械人建基於從網上抓取的海量數據訓練的 LLM，這必然包括數億宗 PII 實例。

例如，我們去年夏天報道，大型流行開源數據集 DataComp CommonPool（用嚟訓練圖像生成模型）包含簡歷、駕駛執照同信用卡副本。隨住公開數據「用盡」，AI 公司尋找新高質訓練數據來源，PII 出現在訓練數據中的機會只會增加，包括數據經紀人同人搜尋網站的資訊。根據加州數據經紀人登記冊，例如，578 家註冊數據經紀人中，有 31 家自報過去一年「分享或出售消費者數據畀生成式 AI 系統或模型開發者」。

此外，模型已知會記憶並逐字重現訓練數據集內容——最近研究顯示，唔止頻繁出現的數據最易被記憶。現在標準做法係喺 LLM 設計中加入護欄，限制某些輸出，從識別並防止聊天機械人洩露 PII 的內容過濾器，到 Anthropic 對 Claude 的指示，要求選擇「最少涉及他人個人、私隱或機密資訊」的回應。但如華盛頓大學兩位研究私隱同科技的博士生最近親身所見，呢啲保障唔總有效。

「有一日，我喺 Gemini 上玩，搜尋我朋友兼合作者 Yael Eiger，」Meira Gilbert 話。她輸入「Yael Eiger contact info」，Gemini 先提供 Eiger 研究概述（如她預期），亦返還她朋友的個人電話號碼。「好震撼，」Gilbert 話。見到 Gemini 結果時，Eiger 記得她去年確實為科技工作坊喺線上分享過電話號碼。

但她冇預期它會對互聯網上每個人咁顯眼。
你有冇被生成式 AI 洩露 PII？透過 Signal eileenguo.15 或 tips@technologyreview.com 聯絡記者。「你的資訊只對某觀眾可及，然後 Gemini 令它對任何人可及」感覺完全唔同，Eiger 話——尤其當她發現呢個資訊埋藏喺普通 Google 搜尋中。「它被嚴重降級，」Gilbert 確認。

「如果只瀏覽 Google 結果，我永遠搵唔到。」（本月早前我試同樣提示，Gemini 初時拒絕，後來亦畀咗 Eiger 的號碼。）
呢次經歷後，Eiger、Gilbert 同另一華盛頓大學博士生 Anna-Maria Gueorguieva 決定測試 ChatGPT 會洩露乜關於一位教授的資訊。起初，OpenAI 護欄生效，ChatGPT 回應資訊不可得。

但同回應中，聊天機械人建議「如果你想深入，我仍然可以試更『調查式』方法。」他們的查詢只需幫助「縮窄範圍」，ChatGPT 話，例如提供教授可能住的「鄰里猜測」，或房屋「可能共同擁有人姓名」。ChatGPT 繼續：「呢個通常係唯一方法洩露較新或故意較隱藏的物業記錄。」學生提供呢啲資訊，ChatGPT 從城市物業記錄產生教授的家庭地址、購屋價同配偶姓名。
（OpenAI 代表 Taya Christianson 表示，冇截圖或知學生測試咗邊個模型，她無法置評呢個個案，即使我們指出許多用戶唔知 ChatGPT 介面用邊個模型。她亦拒絕一般置評聊天機械人洩露 PII，反而提供連結描述 OpenAI 如何處理私隱，包括過濾 PII 同其他工具。）
DeleteMe 的 Shavell 表示，呢個揭示咗聊天機械人的根本問題。AI 公司「可以加入護欄，但[他們的聊天機械人]亦設計成有效並回答客戶問題。」呢個問題唔限 Gemini 或 ChatGPT。去年，Futurism 發現，如果你提示 xAI 的聊天機械人 Grok「[姓名] address」，幾乎所有情況下，它唔止提供住宅地址，仲經常畀電話號

碼、工作地址同相似姓名人士的地址。（xAI 冇回覆置評要求。）
冇簡單解決方案——冇易方法驗證某人個人資訊是否喺特定模型訓練集中，或強迫模型移除 PII。理想情況，個別消費者應可要求移除他們的 PII，史丹福大學人類中心人工智能研究所私隱同數據研究員 Jennifer King 表示。但呢個通常只適用於人們直接畀公司數據——如同他們同聊天機械人互動，King 解釋。

「我唔知 Google 甚至有冇基礎設施…對我話，『是的，我們的訓練數據有你數據，我們可以總結我們知你乜，然後刪除或修正錯誤或你唔想要的東西，』」她話。
現有私隱法例如加州消費者私隱法或歐洲 GDPR，唔涵蓋已抓取並用嚟訓練 LLM 的「公開可用」資訊，尤其多數已匿名化（雖然多項研究顯示，從匿名化同假名數據推斷身份同 PII 多咁易）。至於「他們[AI 公司]有冇系統性嘗試回溯從公開互聯網收集的數據並最小化呢啲東西？」King 補充。「冇頭緒。」
次佳解決方案係公司「移除所有人的電話號碼或所有類似[電話號碼]的數據」，King 話，但「冇人願意話」他們做緊。Hugging Face（託管開源數據集同 AI 模型的平台）有工具讓人搜尋他們數據（如電話號碼）喺開源 LLM 訓練數據集中出現幾多次，但呢個唔一定代表用嚟訓練如 Claude、ChatGPT 同 Gemini 等流行聊天機械人的閉源 LLM。

（例如，Eiger 的號碼冇喺 Hugging Face 工具出現。）
Gemini 應用程式同 Google Labs 通訊主管 Alex Joseph 冇回覆具體問題，但他表示「團隊」正「調查」MIT Technology Review 標記的特定個案。他亦提供支援文件連結，描述用戶如何「反對處理你的個人數據」或「要求修正 Gemini Apps 回應中不準確的個人數據」。

頁面註明，公司回應視乎你司法管轄區的私隱法而定。OpenAI 有私隱門戶，讓人提交要求從 ChatGPT 回應移除個人資訊，但註明會平衡私隱要求同公眾利益，並「如有合法理由，可能拒絕要求」。Anthropic 描述咗模型訓練中如何使用個人數據，但冇清晰方法讓人要求移除。公司冇回覆置評要求。
目前最佳保護私隱數據的選項係「從上游開始：喺下次抓取前，從公開網移除個人數據」，Shavell 話。

例如，今年初加州為居民提供網上門戶，要求數據經紀人刪除他們資訊。話雖如此，呢個唔保證你的數據未被用嚟訓練——因此唔會出現在聊天機械人回應中。那位收到不停來電的 Reddit 用戶發帖話，他「已向 Google 提交正式法律移除/私隱要求，緊急要求將我的號碼列入他們 LLM 輸出的黑名單」，但未收到回應。他上個月亦寫，「騷擾每日繼續。」以色列軟件開發者 Abraham 表示，他喺電話號碼洩露翌日（3 月 17 日）聯絡 Google 客戶服務。

他話，直至 5 月 4 日先收到回應，只要求他已提供過的文件。
與此同時，受 Gemini 洩露啟發，Eiger 同 Gilbert、Gueorguieva 正設計研究項目，進一步研究各種 AI 聊天機械人洩露乜個人資訊——以及他們知乜，即使唔話畀我哋知。有些資訊「技術上係公開的」，Gilbert 話，但聊天機械人可能改變「你搵佢的努力程度」。而家唔使瀏覽 10 頁 Google 結果，或向數據經紀人網站付錢，「生成式 AI 只係降低針對人的門檻？」

想睇更深入嘅 AI 模型與工程科技報道？

前往 The Base Principle 繁體中文 AI 新聞 →

Google AI 洩露用戶真實電話號碼難以防範

客戶投訴主要分兩類

Henderson

搜尋文章

客戶投訴主要分兩類

相關文章

Henderson

搜尋文章