Google 近日向美國的 AI Ultra 訂閱用戶開放了 Project Genie,這是一款名為 Genie 3 的通用世界模型,能夠生成多樣化的互動環境。這款世界模型可模擬環境的動態,預測其演變及行動對環境的影響。儘管 Google DeepMind 在特定環境(如棋類遊戲)中已有相當的技術積累,但要實現通用人工智能(AGI),需要能夠應對現實世界多樣性的系統。
這個實驗性研究原型要求用戶描述其想要的環境,例如「你的世界看起來如何?」隨後,還需指定探索方式(如步行、騎乘、飛行、駕駛等)和視角(第一人稱或第三人稱)。在指定角色(如人、動物、物體或其他)後,Project Genie 會使用 Nano Banana Pro 創建一幅預覽圖像,或稱為世界草圖,讓用戶在進入前預覽並調整其世界。
Google 正在努力改進 Project Genie,計劃引入「可提示事件」,以在用戶探索時改變世界。這樣的環境提示可以包括「一片無盡的海洋,波濤洶湧,巨大的綠松石色浪潮在劇烈的陽光下破碎,數百隻海鷗在空中飛翔,瞬間遮擋視線。」而角色提示則可能是「一塊白色衝浪板的鼻端,正劃破水面,直指一個巨大的破浪。」
這次演示將幫助 Google 更好地了解用戶如何在人工智能研究和生成媒體的多個領域中使用世界模型。訪問權限將於今日開始向美國的 Google AI Ultra 訂閱用戶開放,並會逐步擴展到其他地區。更廣泛地說,世界模型是 Google DeepMind 實現 AGI 使命的一部分,模擬現實場景在機器人技術、動畫建模及探索歷史場景方面具有實際應用價值。
Apple 最近以約 20 億美元的價格收購了 Q.ai。儘管還有許多細節尚未披露,但有關 Q.ai 的部分工作讓人對 Apple 的人工智能及 Siri 的未來充滿期待。Q.ai 專注於理解「靜音」的語音輸入,這次的收購在 Apple 的歷史上也屬於較為重大的交易之一,僅次於十多年前以 30 億美元收購的 Beats。
儘管收購金額龐大,但 Q.ai 的工作仍有許多神秘面紗,正如 9to5Mac 的主編 Chance Miller 所言,該公司已經開發了針對音頻及「靜音」語音輸入的機器學習技術。根據 Q.ai 的網站標語:「在充滿噪音的世界中,我們打造一種新的靜謐。」
以色列科技網站 Geektime 探索了 Q.ai 的專利細節,發現該公司似乎專注於通過光學傳感器來解讀面部肌肉和皮膚運動,將其轉化為文字或指令,而非傳統的語音識別。有些專利顯示,該技術可能會利用一種耳機,檢查用戶的面頰和下頜,讓用戶僅僅通過唇部運動與 Siri 進行互動。
一種名為「增材製造晶體調節法」(CRAFT)的新型 3D 列印方法已被開發出來。該方法允許使用單一且廉價的材料,在像素級別創建具有不同機械和光學特性的 3D 物體,例如硬度和透明度。德克薩斯大學奧斯丁分校的研究人員與桑迪亞國家實驗室合作設計了這一方法,將一種廉價液體轉變為材料變色龍。團隊甚至成功製作了一個人手的逼真複製品。德克薩斯大學化學副教授 Zak Page 表示:「我們能夠在三維空間中控制分子級別的秩序,從而徹底改變材料的機械和光學特性。」他補充道:「這一切都可以通過簡單且廉價的原料來實現,只需改變光的強度,這一點真的令人振奮。」
CRAFT 將一種名為環辛烯的常見液體樹脂轉化為複雜的固體物體,通過商業 3D 列印機投射不同的光模式。在正常情況下,環辛烯只是一種簡單的塑料。然而,團隊發現通過精確操控光強度,利用灰階圖像可以控制材料在固化過程中的分子秩序。通過調整光的強度,研究人員可以使物體的一部分變得堅硬且透明,而相鄰部分則保持柔軟且模糊,這一切均在同一件物品內實現。
Google 正在透過一項名為「Auto Browse」(自動瀏覽)的新功能,悄然將 Chrome 瀏覽器轉型為一個更具自主性的 AI 平台,並與 ChatGPT 等產品展開正面競爭。該功能基於 Google 的 Gemini 系統,目標是將在網頁上填寫表單、收集數據、規劃行程等常規操作,從用戶手中轉移給數字代理來完成。
Auto Browse 的功能與運作
Google 表示,Auto Browse 是其向「代理式 AI」(agentic AI)邁出的重要一步之一,這類系統可以通過具備上下文理解能力的推理,自動化用戶界面的操作。目前,該功能處於預覽階段,僅向付費用戶開放,包括 AI Pro 和 AI Ultra 訂閱方案,並基於最新一代的 Gemini 3 模型運行,其架構受到了 Google 早期實驗性代理框架 Project Mariner 的影響。 當用戶啟動一次 Auto Browse 任務時,Chrome 會打開專用標籤頁,並以動態 AI 圖標加以標識。
圍繞 Auto Browse,Chrome 的界面也進行了調整。過去靜態的 Gemini 按鈕如今默認以側邊欄(Sidepanel)的形式常駐,而不是彈出式窗口,使 AI 能夠持續訪問當前頁面內容。在這一側邊欄中,Gemini 可以直接在 Chrome 內協調 Gmail、日曆、地圖、YouTube、購物和機票等 Google 服務,實現跨服務聯動。 此外,Google 在瀏覽器中引入了 Nano Banana 圖像編輯功能,使用戶無需下載文件即可在本地對圖片進行編輯。在處理視覺任務時,用戶可以在速度更快的標準模型與畫質更高的 Gemini Pro 之間切換,以兼顧效率與質量。
不過,Auto Browse 的運行高度依賴雲端:代理在網頁上執行的所有互動操作,會被實時傳輸至 Google 伺服器,由 Gemini 模型進行處理。 根據 Google 的說明,網頁內容可能會在用戶賬戶下被臨時記錄,並保存在 Gemini 應用活動(Gemini Apps Activity)數據中,具體取決於用戶的隱私設置。目前 Google 尚未明確這些在 Auto Browse 會話中訪問的內容是否會被用於訓練未來的 AI 系統。 在使用門檻方面,AI Pro 訂閱用戶每天可啟動最多 20 次瀏覽任務,AI Ultra 用戶每天可獲得 200 次會話配額。
雖然目前的預覽功能無需額外購買,但 Google 尚未公布何時向免費用戶開放訪問權限。為減少誤操作風險,Google 已為 Auto Browse 設置保護規則,禁止其在未經用戶明確確認的情況下執行交易性操作,例如直接提交支付信息。實際使用中,自動瀏覽可以識別待購買商品並代填訂單表單,但會在最終結帳步驟前停止,等待用戶親自確認。 Auto Browse 是否能從實驗性預覽走向主流應用,仍取決於用戶是否信任這樣的代理,讓它在網絡世界中代表自己瀏覽和行動。
在每週的專欄中,Android Central 的高級內容製作人 Nick Sutrich 深入探討虛擬實境(VR)的各種話題,包括最新的硬件、遊戲和即將到來的技術等。對於某些玩家來說,競爭性的多人遊戲體驗是他們的最愛。《Battlefield》、《Call of Duty》、《Fortnite》等遊戲因這一概念而聚集了數百萬的玩家。雖然偶爾我也會享受這些遊戲的幾回合,但我本性並不競爭。幸運的是,還有許多人像我一樣,寧願與其他玩家合作,而不是互相競爭。
與此同時,Oppo Reno15 Pro Mini 則搭載更強大的 Mediatek Dimensity 8450,並擁有 12GB RAM,其主頻可達 3.25GHz,這意味著它在多任務處理及高性能需求的應用上表現更為出色。雖然 Redmi Note 15 5G 的效能已經相當不錯,但在處理器上,Oppo Reno15 Pro Mini 顯然更具優勢。
總結來說,如果你重視處理器效能及內存容量,Oppo Reno15 Pro Mini 會是更佳的選擇;而如果你只是日常使用,則小米 Redmi Note 15 5G 的效能表現也足夠應付。