close
專傢評Alphago Zero 成績令人欣喜但AI還在路上
作者:葛熔金
在金庸的小說《射雕英雄傳》裡,周伯通“左手畫圓,右手畫方”,左手攻擊右手,右手及時反搏,自娛自樂,終無敵於天下。
現實世界中,亦有這麼一個“幼童”,他沒見過一個棋譜,也沒有得到一個人指點,從零開始,自娛自樂,自己參悟,用瞭僅僅40天,便稱霸圍棋武林。
這個“幼童”,叫阿爾法元(AlphaGo Zero),就是今年5月在烏鎮圍棋峰會上打敗瞭人類第一高手柯潔的阿爾法狗強化版AlphaGo Master的同門“師弟”。不過,這個遍讀人類幾乎所有棋譜、以3比0打敗人類第一高手的師兄,在“師弟”阿爾法元從零自學第21天後,便被其擊敗。
10月19日,一手創造瞭AlphaGo神話的谷歌DeepMind團隊在Nature雜志上發表重磅論文Mastering the game of Go without human knowledge,介紹瞭團隊最新研究成果——阿爾法元的出世,引起業內轟動。
雖師出同門,但是師兄弟的看傢本領卻有本質的差別。
“過去所有版本的AlphaGo都從利用人類數據進行培訓開始,它們被告知人類高手在這個地方怎麼下,在另一個地方又怎麼下。” DeepMind阿爾法狗項目負責人David Silver博士在一段采訪中介紹,“而阿爾法元不使用任何人類數據,完全是自我學習,從自我對弈中實踐。”
David Silver博士介紹,在他們所設計的算法中,阿爾法元的對手,或者叫陪練,總是被調成與其水平一致。“所以它是從最基礎的水平起步,從零開始,從隨機招式開始,但在學習過程中的每一步,它的對手都會正好被校準為匹配器當前水平,一開始,這些對手都非常弱,但是之後漸漸變得越來越強大。”
這種學習方式正是當今人工智能最熱門的研究領域之一——強化學習(Reinforcement learning)。
昆山杜克大學和美國杜克大學電子與計算機工程學教授李昕博士向澎湃新聞(www.thepaper.cn)介紹,DeepMind團隊此次所利用的一種新的強化學習方式,是從一個對圍棋沒有任何知識的神經網絡開始,然後與一種強大的搜索算法相結合,“簡單地解釋就是,它開始不知道該怎麼做,就去嘗試,嘗試之後,看到瞭結果,若是正面結果,就知道做對瞭,反之,就知道做錯瞭,這就是它自我學習的方法。”
這一過程中,阿爾法元成為自己的“老師”,神經網絡不斷被調整更新,以評估預測下一個落子位置以及輸贏,更新後的神經網絡又與搜索算法重新組合,進而創建一個新的、更強大的版本,然而靜電除煙機再次重復這個過程,系統性能經過每一次迭代得到提高,使得神經網絡預測越來越準確,阿爾法元也越來越強大。靜電機保養
其中值得一提的是,以前版本的阿爾法狗通常使用預測下一步的“策略網絡(policy network)”和評估棋局輸贏的“價值網絡(value network)”兩個神經網絡。而更為強大的阿爾法元隻使用瞭一個神經網絡,也就是兩個網絡的整合版本。
這個意義上而言,“AlphaGo Zero”譯成“阿爾法元”,而不是字面上的“阿爾法零”,“內涵更加豐富,代表瞭人類認知的起點——神經元。”李昕教授說。
上述研究更新瞭人們對於機器學習的認知。“人們一般認為,機器學習就是關於大數據和海量計算,但是通過阿爾法元,我們發現,其實算法比所謂計算或數據可用性更重要。”DavidSilver博士說。
李昕教授長期專註於制造業大數據研究,他認為,這個研究最有意義的一點在於,證明瞭人工智能在某些領域,也許可以擺脫對人類經驗和輔助的依賴。“人工智能的一大難點就是,需要大量人力對數據樣本進行標註,而阿爾法元則證明,人工智能可以通過‘無監督數據(unsupervised data)’,也就是人類未標註的數據,來解決問題。”
有人暢想,類似的深度強化學習算法,或許能更容易地被廣泛應用到其他人類缺乏瞭解或是缺乏大量標註數據的領域。
不過,究竟有多大實際意義,能應用到哪些現實領域,李昕教授表示“還前途未卜”,“下圍棋本身是一個比較局限的應用,人類覺得下圍棋很復雜,但是對於機器來說並不難。而且,下圍棋隻是一種娛樂方式,不算作人們在生活中遇到的實際問題。”
那麼,谷歌的AI為什麼會選擇圍棋?
據《第一財經》報道,歷史上,電腦最早掌握的第一款經典遊戲是井字遊戲,這是1952年一位博士在讀生的研究項目;隨後是1994年電腦程序Chinook成功挑戰西洋跳棋遊戲;3年後,IBM深藍超級計算機在國際象棋比賽中戰勝世界冠軍加裡?卡斯帕羅夫。
除瞭棋盤遊戲外,IBM的Watson系統在2011年成功挑戰老牌智力競賽節目Jeopardy遊戲一戰成名;2014年,Google自己編寫的算法,學會瞭僅需輸入初始像素信息就能玩幾十種Atari遊戲。
但有一項遊戲仍然是人類代表著頂尖水平,那就是圍棋。
谷歌DeepMind創始人兼CEO Demis Hassabis博士曾在2016年AlphaGo對陣李世石時就做過說明,有著3000多年歷史的圍棋是人類有史以來發明出來的最復雜的遊戲,對於人工智能來說,這是一次最尖端的大挑戰,需要直覺和計算,要想熟練玩圍棋需要將模式識別和運籌帷幄結合。
“圍棋的搜索空間是漫無邊際的——比圍棋棋盤要大1個古戈爾(數量級單位,10的100次方,甚至比宇宙中的原子數量還要多)。”因此,傳統的人工智能方法也就是“為所有可能的步數建立搜索樹”,在圍棋遊戲中幾乎無法實現。
而打敗瞭人類的AlphaGo系統的關鍵則是,將圍棋巨大無比的搜索空間壓縮到可控的范圍之內。David Silver博士此前曾介紹,策略網絡的作用是預測下一步,並用來將搜索范圍縮小至最有可能的那些步驟。另一個神經網絡“價值網絡(valuenetwork)”則是營業用抽油煙機用來減少搜索樹的深度,每走一步估算一次遊戲的贏傢,而不是搜索所有結束棋局的途徑。
李昕教授對阿爾法元帶來的突破表示欣喜,但同時他也提到,“阿爾法元證明的隻是在下圍棋這個遊戲中,無監督學習(unsupervised learning)比有監督學習(supervised learning)‘更優’,但並未證明這就是‘最優’方法,也許兩者結合的semi-supervised learning,也就是在不同時間和階段,結合有監督或無監督學習各自的優點,可以得到更優的結果。”
李昕教授說,人工智能的技術還遠沒有達到人們所想象的程度,“比如,互聯網登錄時用的reCAPTCHA驗證碼(圖像或者文字),就無法通過機器學習算法自動識別”,他說,在某些方面,機器人確實比人做得更好,但目前並不能完全替換人。“隻有當科研證明,一項人工智能技術能夠解決一些實際問題和人工痛點時,才真正算作是一個重大突破。”
昆山杜克大學常務副校長、中美科技政策和關系專傢丹尼斯·西蒙(Denis Simon)博士在接受澎湃新聞采訪時表示,阿爾法元在圍棋領域的成功說明它確實有極大的潛力。阿爾法元通過與自身對弈實現瞭自身能力的提升,每一次它都變得更聰明,每一次棋局也更有挑戰性。這種重復性的、充分參與的學習增強瞭阿爾法元處理更高層次的、戰略復雜問題的能力。但缺點是這是一個封閉的系統。“阿爾法元如何能夠超過自身的局限獲得進一步的成長?換句話說,它能跳出框框思考嗎?”
作者:葛熔金
在金庸的小說《射雕英雄傳》裡,周伯通“左手畫圓,右手畫方”,左手攻擊右手,右手及時反搏,自娛自樂,終無敵於天下。
現實世界中,亦有這麼一個“幼童”,他沒見過一個棋譜,也沒有得到一個人指點,從零開始,自娛自樂,自己參悟,用瞭僅僅40天,便稱霸圍棋武林。
這個“幼童”,叫阿爾法元(AlphaGo Zero),就是今年5月在烏鎮圍棋峰會上打敗瞭人類第一高手柯潔的阿爾法狗強化版AlphaGo Master的同門“師弟”。不過,這個遍讀人類幾乎所有棋譜、以3比0打敗人類第一高手的師兄,在“師弟”阿爾法元從零自學第21天後,便被其擊敗。
10月19日,一手創造瞭AlphaGo神話的谷歌DeepMind團隊在Nature雜志上發表重磅論文Mastering the game of Go without human knowledge,介紹瞭團隊最新研究成果——阿爾法元的出世,引起業內轟動。
雖師出同門,但是師兄弟的看傢本領卻有本質的差別。
“過去所有版本的AlphaGo都從利用人類數據進行培訓開始,它們被告知人類高手在這個地方怎麼下,在另一個地方又怎麼下。” DeepMind阿爾法狗項目負責人David Silver博士在一段采訪中介紹,“而阿爾法元不使用任何人類數據,完全是自我學習,從自我對弈中實踐。”
David Silver博士介紹,在他們所設計的算法中,阿爾法元的對手,或者叫陪練,總是被調成與其水平一致。“所以它是從最基礎的水平起步,從零開始,從隨機招式開始,但在學習過程中的每一步,它的對手都會正好被校準為匹配器當前水平,一開始,這些對手都非常弱,但是之後漸漸變得越來越強大。”
這種學習方式正是當今人工智能最熱門的研究領域之一——強化學習(Reinforcement learning)。
昆山杜克大學和美國杜克大學電子與計算機工程學教授李昕博士向澎湃新聞(www.thepaper.cn)介紹,DeepMind團隊此次所利用的一種新的強化學習方式,是從一個對圍棋沒有任何知識的神經網絡開始,然後與一種強大的搜索算法相結合,“簡單地解釋就是,它開始不知道該怎麼做,就去嘗試,嘗試之後,看到瞭結果,若是正面結果,就知道做對瞭,反之,就知道做錯瞭,這就是它自我學習的方法。”
這一過程中,阿爾法元成為自己的“老師”,神經網絡不斷被調整更新,以評估預測下一個落子位置以及輸贏,更新後的神經網絡又與搜索算法重新組合,進而創建一個新的、更強大的版本,然而靜電除煙機再次重復這個過程,系統性能經過每一次迭代得到提高,使得神經網絡預測越來越準確,阿爾法元也越來越強大。靜電機保養
其中值得一提的是,以前版本的阿爾法狗通常使用預測下一步的“策略網絡(policy network)”和評估棋局輸贏的“價值網絡(value network)”兩個神經網絡。而更為強大的阿爾法元隻使用瞭一個神經網絡,也就是兩個網絡的整合版本。
這個意義上而言,“AlphaGo Zero”譯成“阿爾法元”,而不是字面上的“阿爾法零”,“內涵更加豐富,代表瞭人類認知的起點——神經元。”李昕教授說。
上述研究更新瞭人們對於機器學習的認知。“人們一般認為,機器學習就是關於大數據和海量計算,但是通過阿爾法元,我們發現,其實算法比所謂計算或數據可用性更重要。”DavidSilver博士說。
李昕教授長期專註於制造業大數據研究,他認為,這個研究最有意義的一點在於,證明瞭人工智能在某些領域,也許可以擺脫對人類經驗和輔助的依賴。“人工智能的一大難點就是,需要大量人力對數據樣本進行標註,而阿爾法元則證明,人工智能可以通過‘無監督數據(unsupervised data)’,也就是人類未標註的數據,來解決問題。”
有人暢想,類似的深度強化學習算法,或許能更容易地被廣泛應用到其他人類缺乏瞭解或是缺乏大量標註數據的領域。
不過,究竟有多大實際意義,能應用到哪些現實領域,李昕教授表示“還前途未卜”,“下圍棋本身是一個比較局限的應用,人類覺得下圍棋很復雜,但是對於機器來說並不難。而且,下圍棋隻是一種娛樂方式,不算作人們在生活中遇到的實際問題。”
那麼,谷歌的AI為什麼會選擇圍棋?
據《第一財經》報道,歷史上,電腦最早掌握的第一款經典遊戲是井字遊戲,這是1952年一位博士在讀生的研究項目;隨後是1994年電腦程序Chinook成功挑戰西洋跳棋遊戲;3年後,IBM深藍超級計算機在國際象棋比賽中戰勝世界冠軍加裡?卡斯帕羅夫。
除瞭棋盤遊戲外,IBM的Watson系統在2011年成功挑戰老牌智力競賽節目Jeopardy遊戲一戰成名;2014年,Google自己編寫的算法,學會瞭僅需輸入初始像素信息就能玩幾十種Atari遊戲。
但有一項遊戲仍然是人類代表著頂尖水平,那就是圍棋。
谷歌DeepMind創始人兼CEO Demis Hassabis博士曾在2016年AlphaGo對陣李世石時就做過說明,有著3000多年歷史的圍棋是人類有史以來發明出來的最復雜的遊戲,對於人工智能來說,這是一次最尖端的大挑戰,需要直覺和計算,要想熟練玩圍棋需要將模式識別和運籌帷幄結合。
“圍棋的搜索空間是漫無邊際的——比圍棋棋盤要大1個古戈爾(數量級單位,10的100次方,甚至比宇宙中的原子數量還要多)。”因此,傳統的人工智能方法也就是“為所有可能的步數建立搜索樹”,在圍棋遊戲中幾乎無法實現。
而打敗瞭人類的AlphaGo系統的關鍵則是,將圍棋巨大無比的搜索空間壓縮到可控的范圍之內。David Silver博士此前曾介紹,策略網絡的作用是預測下一步,並用來將搜索范圍縮小至最有可能的那些步驟。另一個神經網絡“價值網絡(valuenetwork)”則是營業用抽油煙機用來減少搜索樹的深度,每走一步估算一次遊戲的贏傢,而不是搜索所有結束棋局的途徑。
李昕教授對阿爾法元帶來的突破表示欣喜,但同時他也提到,“阿爾法元證明的隻是在下圍棋這個遊戲中,無監督學習(unsupervised learning)比有監督學習(supervised learning)‘更優’,但並未證明這就是‘最優’方法,也許兩者結合的semi-supervised learning,也就是在不同時間和階段,結合有監督或無監督學習各自的優點,可以得到更優的結果。”
李昕教授說,人工智能的技術還遠沒有達到人們所想象的程度,“比如,互聯網登錄時用的reCAPTCHA驗證碼(圖像或者文字),就無法通過機器學習算法自動識別”,他說,在某些方面,機器人確實比人做得更好,但目前並不能完全替換人。“隻有當科研證明,一項人工智能技術能夠解決一些實際問題和人工痛點時,才真正算作是一個重大突破。”
昆山杜克大學常務副校長、中美科技政策和關系專傢丹尼斯·西蒙(Denis Simon)博士在接受澎湃新聞采訪時表示,阿爾法元在圍棋領域的成功說明它確實有極大的潛力。阿爾法元通過與自身對弈實現瞭自身能力的提升,每一次它都變得更聰明,每一次棋局也更有挑戰性。這種重復性的、充分參與的學習增強瞭阿爾法元處理更高層次的、戰略復雜問題的能力。但缺點是這是一個封閉的系統。“阿爾法元如何能夠超過自身的局限獲得進一步的成長?換句話說,它能跳出框框思考嗎?”
AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋
AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots
文章標籤
全站熱搜
留言列表