News
- 報價 / 優惠
手機
- Mobile 手機
  Meta 將加倍生產 Ray-Ban 智能眼鏡以應對需求激增
  Mobile 手機
  Samsung Galaxy S26+ 將不再搭載新顯示面板，發佈進度受影響
  Mobile 手機
  Honor Magic8 Pro Air 在 Geekbench 測試中獲得單核 2,969 和多核 9,892 分，搭載 Dimensity 9500 SoC
  Mobile 手機
  Meta VR 平台的信譽遭受重創，未來發展面臨挑戰
  Mobile 手機
  MediaTek 發佈 Dimensity 9500s 和 Dimensity 8500 晶片，提升 Android 手機性能
AI
- All ChatGPT / OpenAI Google Gemini Grok Meta Ai
  AI - Artificial intelligence - 人工智能
  OpenAI 參與阿爾特曼腦機接口創企 Merge Labs 2.5 億美元種子輪融資
  AI - Artificial intelligence - 人工智能
  Google Pixel 11 Pro Fold 可能提升電池維修性，專利顯示新設計方向
  AI - Artificial intelligence - 人工智能
  菲律賓計劃封禁Elon Musk旗下AI聊天機器人Grok以保障兒童安全
  AI - Artificial intelligence - 人工智能
  維基百科與科技巨頭達成合作協議以支持內容訓練及收入增長
Telecom 電訊
- am730
  【緊急支援】HKT 為大埔宏褔苑火災受影響住戶提供 6 大援助措施：派 5G 寬頻、免月費、DrGo 義診
  am730
  SmarTone榮獲香港零售管理協會傑出服務獎三項大獎
  am730
  csl、1O1O及Club Sim客戶觀看ViuTV全運會直播可豁免數據
  am730
  SmarTone 開放iPad Pro (M5) 預訂，現客出機有折扣
  am730
  CSL 推出「黃金漫遊」服務，優先分配提升漫遊體驗
Wearable
- Wearable Technology
  Meta 取消《哈利·波特》VR 遊戲開發計劃隨著資金調整影響擴大
  Wearable Technology
  烏魯木齊市第146中學計劃建設 VR 智慧教室投標公告
  Wearable Technology
  AR/VR 技術挑戰傳統用戶體驗設計觀念
  Wearable Technology
  Meta 關閉三家 VR 遊戲工作室將重心轉向第三方開發者
  Wearable Technology
  《Gorilla Tag》周末吸引超過 100 萬獨立用戶進入虛擬世界
VPN
- Latest News
  【說明】使用 VPN 時，為何要選擇距離最近的 VPN Server？
  NEWS
  Mozilla 推出 Firefox VPN 擴展：為每個網站自訂 IP 地址
  NEWS
  Vivaldi 瀏覽器整合 Proton VPN 提供私密上網體驗
  VPN
  【詳解】VPN 是什麼？選擇、推薦及「免費」服務介紹
  VPN
  【VPN 比較】2025 年推薦安全 VPN（免費/付費）供應商
開箱評測
- All SIM Card 開箱評價手機平板開箱評價配件開箱評價
  am730
  【開箱評價】CONVEN TG48 48W 氮化鎵充電器：床頭最啱用
  am730
  【開箱評價】CONVEN TG100E 100W 氮化鎵充電器：高達 100W 的輸出
  SIM Card 開箱評價
  【實測 2026】韓國電話卡推介：4 款旅遊卡，有無限上網，有打電話，首爾、釡山測速！4G /5G 速度差異明顯
  am730
  【開箱評價】CONVEN PG5MS 5000mAh 外置電池：輕便的 15W MagSafe 無線充電
手機比較
教學 101
網速測試
SIM Card
- All 旅遊 SIM 卡中國大陸電話卡台灣電話卡日本電話卡泰國電話卡澳洲電話卡澳門電話卡韓國電話卡香港年卡香港月卡
  SIM Card 開箱評價
  【實測 2026】韓國電話卡推介：4 款旅遊卡，有無限上網，有打電話，首爾、釡山測速！4G /5G 速度差異明顯
  LINE TODAY
  【實測 2025】台灣電話卡推介：唔一定要「實名登記」，台北、桃園、中壢測速！最快可以去到 135Mbps
  SIM Card 開箱評價
  【澳洲電話卡推介】香港買澳洲 SIM 卡、Telstra、Optus、Vodafone 網絡、留學生及自由行簡單實測
  SIM Card 開箱評價
  【實測 2025】日本電話卡推介｜4G/5G 上網卡 6 款比較｜東京大阪褔岡沖繩評價貪平會出事，有 5G 用啦！

研究指人工智能測試方法存在缺陷或高估實際表現

07/11/2025

根據牛津互聯網研究院最新發佈的一項研究，目前用於評估人工智能系統能力的方法常因缺乏科學嚴謹性而「高估」了 AI 的實際表現。該研究由牛津互聯網研究院牽頭，聯合三十多位學者，對 445 項主流 AI 測試（即「基準測試」）進行了審查。研發者和研究人員常以這些基準測試來評價模型性能，並據此宣稱技術進步。然而，此項研究認為這些基礎測試本身的可靠性存在疑問，呼籲重新審視相關基準的有效性。

研究發現，許多頂級基準測試未能明確界定評測目標，頻繁複用已有數據和測試方法，且很少採用可靠的統計方法比較不同模型結果。有作者指出，AI 在被要求完成特定任務時，實際測量對象常常與預期目標並不一致。例如常用的 GSM8K 數學基準測試，雖然正確答案能顯示模型基本算術能力，但未必能代表其真正的數學或推理水平。

研究還指出，半數基準未清晰定義所測量的概念，使測試結果難以真實反映 AI 模型在現實中的表現。作者建議，基準制定者應更清楚界定測試範疇，開發更具代表性的任務集，並以統計分析方式比較性能表現。

作為改善措施，論文提出八項建議，包括增加透明度和可信度的檢查清單。目前已有人提出以更貼合現實需求的測試方式，如 OpenAI 推出的面向 44 種真實職業任務的新測試；中心安全團隊也制定了用於評估遠程工作自動化任務能力的新基準。該研究認為，AI 測試仍處於科學評估的初期階段，需持續探索更有效的評測路徑，推動 AI 實際能力的客觀判斷。

【實測】日本電話卡推介｜4G/5G 上網卡 6 款比較｜東京大阪褔岡開箱貪平會出事，有 5G 用啦！

此文章發佈於 TechRitual 香港 - 日本電話卡 - 台灣電話卡 - 韓國電話卡 - 澳洲電話卡

十斗 https://www.techritual.com/author/tenten/

十斗在知名大學取得了計算機科學與工程學位，並在學術研究方面表現出色。她的研究領域包括人工智能、機器學習和數據科學。一斗為十升，一升為十合，一合為十分之一升。謝靈運言天下才學一石，曹植占八斗，以此讚譽。後用以比喻才學極高。