AlphaGo Zero:能自主學習的最佳棋手

21/10/2017
1333 Views


今年五月,在第二代 AlphaGo 戰勝目前人類棋手最强者柯潔后,AlphaGo 被中國圍棋協會授予九段稱號,在人類中再無對手,已然獨孤求敗。而就在數月后,AlphaGo 再次進化成全新的 AlphaGo Zero。

Zero 比起前代 AI 使用了「從零開始」完全不同的訓練方法。過去的 AlphaGo 都是通過模擬人類棋手的思路,通過人類對局記錄和與人類對局來進化,而 Zero 從最初就完全人類棋手的影子,是完全靠著自我學習,自我對弈成長的「史上最前棋手」。

在同門相爭下,Zero 的每場勝利都處於碾壓姿態。在於對陣擊敗李世石那一版的 AlphaGo 之前,Zero 僅花了 3 天時間訓練,就完成了 100:0 絕對勝利。在 40 天后,它又以 89:11 的碾壓取得了振聲柯潔的 Master 版本。柯潔對此的評價是:「一個純净,純粹自我學習的 AlphaGo 是最强的,對於 AlphaGo 的自我進步來講,人類太多余了。」


DeepMind CEO Demis Hassabis 表示,Zero 比起前代 AlphaGo 強在「突破了人類認知的桎梏」。這對於需要大量數據來進行演算進化的 AI 來説,又前進了一大步。

當然,除了進一步在圍棋「相信其他棋類人類也不敢說有信心取勝了」方面再次摧毀人類自信心以外,DeepMind 認爲 Zero 的作用遠不止這些,「這樣的技術能夠應用在蛋白質摺叠,降低能耗,尋找新材料等結構性問題上,其潛在的突破很可能為人類社會帶來非常積極的影響。」

目前 Zero 能夠取得的「自我進化」都是在人類可控範圍内的,裏 Elon Musk 所説的「自我意識」還差太遠。就目前來看,人工智能的發展對於人類來説積極意義遠大於假想中的「大毀滅」,也許人類許多無法解決的難題能夠依靠著 AI 取得進展,這種技術革新對於多個領域都有著重要意義。



Arlo Pro 網絡攝錄鏡頭 - 防水、內置電池、無線
詳情請點擊:http://www.anlander.com

此文章首發於 TechRitual;標題:AlphaGo Zero:能自主學習的最佳棋手;內容贊助:NETGEAR orbi,Mesh WiFi 子母機設計打通村屋