欧美亚洲中文,在线国自产视频,欧洲一区在线观看视频,亚洲综合中文字幕在线观看

<dfn id="rfwes"></dfn>

<object id="rfwes"></object>

<nobr id="h9rsz"></nobr>

當(dāng)前位置：站長資訊網(wǎng) > 新聞資訊 > 正文

AlphaGo的冷思考，如何看待人工智能的進(jìn)步？

2020-12-22 分類：新聞資訊閱讀(1070) 評(píng)論(0)

AlphaGo的冷思考，如何看待人工智能的進(jìn)步？

　　發(fā)生了什么？

　　谷歌(微博)DeepMind一個(gè)15-20人組成的團(tuán)隊(duì)設(shè)計(jì)的系統(tǒng)AlphaGo在正式圍棋比賽中以5:0的成績擊敗了曾三次獲得歐洲圍棋冠軍的樊麾。在非正式比賽中樊麾曾以更少的每步用時(shí)在5場比賽中獲勝2場(新聞報(bào)道中常常忽略了這些更多的有趣細(xì)節(jié)，相關(guān)情況也可查看《自然》論文)。AlphaGo程序比以往任何圍棋程序更加強(qiáng)大(下面會(huì)介紹它到底有多強(qiáng))。

　　怎么辦到的？

　　相比于其它計(jì)算機(jī)圍棋程序相關(guān)團(tuán)隊(duì)，AlphaGo由一個(gè)相對較大的團(tuán)隊(duì)研發(fā)發(fā)，顯然使用了更多的計(jì)算資源(詳見下文)。該程序使用了一種新穎的方式實(shí)現(xiàn)了神經(jīng)網(wǎng)絡(luò)和蒙特卡洛樹搜索(Monte Carlo tree search，MCTS)的結(jié)合，并經(jīng)過了包含監(jiān)督學(xué)習(xí)和自我訓(xùn)練的多個(gè)階段的訓(xùn)練。值得注意的是，從評(píng)估它與人工智能進(jìn)步關(guān)系的角度來看，它并沒有接受過端到端(end-to-end)的訓(xùn)練(盡管在AAAI 2016上Demis Hassabis表示他們可能會(huì)在未來這樣做)。另外在MCTS組件中它還使用了一些手工開發(fā)的功能(這一點(diǎn)也常常被觀察者忽略)。相關(guān)論文宣稱的貢獻(xiàn)是「評(píng)估與策略網(wǎng)絡(luò)(value and policy networks)」的構(gòu)想和他們整合MCTS的方式。論文中的數(shù)據(jù)表明，使用這些元素的系統(tǒng)比不使用它們的系統(tǒng)更為強(qiáng)大。

　　整體AI性能VS特定算法的進(jìn)步

　　仔細(xì)研究《自然》上關(guān)于AlphaGo的論文，可以得到許多觀點(diǎn)，其中一個(gè)對評(píng)估該結(jié)果所擁有的更廣泛意義尤其重要：硬件在提高AlphaGo性能上的關(guān)鍵作用。參考下面的數(shù)據(jù)，我將對其進(jìn)行解釋。

AlphaGo的冷思考，如何看待人工智能的進(jìn)步？

　　該圖表顯示了計(jì)算機(jī)Go與樊麾在估測Elo評(píng)級(jí)和排名方面的些許不同(譯者注：Elo評(píng)級(jí)系統(tǒng)是由美國物理學(xué)教授Arpad Elo提出的一種計(jì)算二人競技游戲(如象棋、圍棋)中選手相對水平的評(píng)級(jí)系統(tǒng))。Elo評(píng)級(jí)表示了擊敗評(píng)級(jí)更高或更低對手的期望概率——比如，一個(gè)評(píng)分比對手多200分的選手預(yù)計(jì)獲勝的概率為四分之三。現(xiàn)在我們可以通過圖表了解一些有趣的信息。忽略粉紅色數(shù)據(jù)條(表示在有額外棋子時(shí)的表現(xiàn))，我們可以發(fā)現(xiàn)AlphaGo(不管是不是分布式的)都比原來最好的圍棋程序Crazy Stone和Zen強(qiáng)出許多。AlphaGo的等級(jí)是較低的專業(yè)級(jí)水平(圖表右側(cè)的p表示「專業(yè)段位」)，而其它程序則處在較高的業(yè)余水平上(圖表右側(cè)的d表示「業(yè)余段位」)。另外，我們可以看到盡管分布式AlphaGo(AlphaGo Distributed)的評(píng)估水平略高于樊麾，但非分布式AlphaGo卻并非如此(和樊麾比賽的是分布式AlphaGo)。看起來樊麾如果和非分布式AlphaGo對弈，可能他就算不獲勝，至少也可以贏幾局。

　　后面我會(huì)談更多關(guān)于這兩種AlphaGo和其它變體之間的不同，但現(xiàn)在請注意一下上圖遺漏的東西：最新的圍棋程序。在AlphaGo的勝利之前的幾周和幾個(gè)月里，圍棋界將顯著的活動(dòng)和熱情(盡管團(tuán)隊(duì)小一些，比如Facebook就1-2個(gè)人)投入到了兩個(gè)圍棋引擎上：由Facebook研究人員開發(fā)的darkforest(及其變體，其中最好的是darkfmcts3)和評(píng)價(jià)很高的Zen程序的新實(shí)驗(yàn)版本Zen19X。

　　請注意，在今年一月份，Zen19X在KGS服務(wù)器(用于人類和計(jì)算機(jī)圍棋)中被簡單地評(píng)級(jí)為「業(yè)余7段」，據(jù)報(bào)道這是因?yàn)榻Y(jié)合使用了神經(jīng)網(wǎng)絡(luò)。darkfmcts3則獲得了實(shí)打?qū)嵉摹笜I(yè)余5段」評(píng)級(jí)，這在前幾個(gè)月的基礎(chǔ)上實(shí)現(xiàn)了2-3個(gè)段位的進(jìn)步，其背后的研究人員還在論文中表示還有各種現(xiàn)成的方法可以對其進(jìn)行改進(jìn)。事實(shí)上，按田淵棟和朱巖在其最新的論文中的說法，在最新的KGS計(jì)算機(jī)圍棋賽中，如果不是因?yàn)槌霈F(xiàn)了一個(gè)故障，他們本能夠擊敗Zen(相反Hassabis說darkfmcts3輸給了Zen——他可能沒有看相關(guān)的注腳!)?？偨Y(jié)來說，計(jì)算機(jī)圍棋在AlphaGo之前就已經(jīng)通過與深度學(xué)習(xí)的結(jié)合實(shí)現(xiàn)了很多進(jìn)步，這能稍微減少上面圖表中的差距(這份圖表可能是幾個(gè)月前的)，但并不能完全消除。

　　現(xiàn)在，回到硬件的問題上。DeepMind的David Silver和 Aja Huang等人對AlphaGo的許多變體版本進(jìn)行了評(píng)估，并總結(jié)成了上面圖表中的AlphaGo和分布式AlphaGo。但這沒有給出由硬件差異所帶來的變體版本的全貌，而你可以在下圖(同樣來自于那篇論文)中看到這個(gè)全貌。

AlphaGo的冷思考，如何看待人工智能的進(jìn)步？

　　這張圖表給出了不同AlphaGo變體版本所估測的Elo評(píng)級(jí)。其中11條淡藍(lán)色數(shù)據(jù)來自「單臺(tái)機(jī)器」變體，而藍(lán)黑色數(shù)據(jù)則來自涉及多臺(tái)機(jī)器的分布式AlphaGo。但這個(gè)機(jī)器到底是什么呢?圖中的線程(Threads)表示了所使用的搜索線程數(shù)，而通過查閱論文后面的內(nèi)容，我們可以發(fā)現(xiàn)其中計(jì)算最不密集的AlphaGo版本(圖中最短數(shù)據(jù)條)使用了48個(gè)CPU和1個(gè)GPU。作為參考，Crazy Stone沒有使用任何GPU，使用的CPU也稍微少一點(diǎn)。在簡單搜索了不同的圍棋程序目前所使用的計(jì)算集群之后，我沒找到其它任何程序GPU的使用數(shù)量超過36個(gè)。Facebook的darkfmcts3是我所知唯一確定使用了GPU的版本，其最大的版本使用了64個(gè)GPU和8個(gè)CPU(也就是說相比于單臺(tái)機(jī)器版AlphaGo，GPU更多，CPU更少)。上圖中基于40個(gè)搜索線程、48個(gè)CPU、8個(gè)GPU變體的單臺(tái)機(jī)器版AlphaGo比前面提到的其它程序強(qiáng)大很多。但如果它是一個(gè)48個(gè)CPU、1個(gè)GPU版本，它可能只會(huì)比Crazy Stone和Zen強(qiáng)一點(diǎn)——甚至可能不會(huì)比1月份剛改進(jìn)過的最新Zen19X版本更強(qiáng)。

　　也許最好的比較是在同樣硬件水平上對比AlphaGo和darkfmcts3，但它們使用了不同的CPU/GPU配置，而darkfmcts3在AlphaGo的勝利之后也已下線。如果將Crazy Stone和Zen19X擴(kuò)展到與分布式AlphaGo同等的集群規(guī)模，進(jìn)一步分析前面提到的硬件調(diào)整所帶來的性能提升，那也會(huì)很有意思。總之，并不清楚在同等硬件水平上AlphaGo相對于之前的圍棋程序有多少性能提升——也許有一些，但肯定沒有之前使用小集群的圍棋程序和使用大規(guī)模集群的AlphaGo之間的差距那樣大。這是我們下面要討論的。

　　分布式AlphaGo最大的變體版本使用了280個(gè)GPU和1920個(gè)CPU。這樣巨大的硬件絕對數(shù)量所帶來的算力顯然遠(yuǎn)遠(yuǎn)超過之前任何被報(bào)道過的圍棋程序。這一計(jì)算集群大小值得注意的原因有兩個(gè)。第一，它讓人疑問AlphaGo所代表的硬件適應(yīng)算法(hardware-adjusted algorithmic)的進(jìn)展程度，以及相關(guān)的評(píng)估和策略網(wǎng)絡(luò)的重要性。正如我在最新的AAAI工作室論文《人工智能建模的進(jìn)展》提到的，如果我們應(yīng)該追蹤人工智能領(lǐng)域內(nèi)多個(gè)最先進(jìn)的狀況而不是單個(gè)最先進(jìn)的狀況，那么將分布式AlphaGo和Crazy Stone之類進(jìn)行比較就是將兩個(gè)最先進(jìn)的進(jìn)行比較——即在考慮小規(guī)模算力(和小團(tuán)隊(duì))的性能和大規(guī)模算力(由十幾位世界上最優(yōu)秀的人工智能研究者所帶來的)性能進(jìn)行比較。

　　第二，值得注意的是，光是硬件改進(jìn)這一方面就讓AlphaGo實(shí)現(xiàn)了非常大的棋力水平跨越(相對于人類而言)——從報(bào)道中最低的大約Elo評(píng)級(jí)2200分上漲到超過3000分，這是業(yè)余水平和專業(yè)水平之間的差距。這可能表明(后面我還會(huì)回過來討論)在可能的技術(shù)水平區(qū)間中，人類水平只能處在相對較小的區(qū)間內(nèi)。如果這個(gè)項(xiàng)目在10或20年前已經(jīng)開始，看起來很可能在相同算法的基礎(chǔ)上，僅靠硬件提升就能讓機(jī)器的棋力水平一步實(shí)現(xiàn)從業(yè)余水平到超人水平(超過專業(yè)水平)的跨越。此外，10或20年前，即使采用相同的算法，因?yàn)橛布较拗?，也很可能沒辦法開發(fā)出超人水平的圍棋程序。盡管近年來神經(jīng)網(wǎng)絡(luò)和MCTS等其它方面的進(jìn)步也做出了很大貢獻(xiàn)，但也許只有到現(xiàn)在，在硬件進(jìn)步的基礎(chǔ)上，AlphaGo項(xiàng)目才有意義。

　　此外，同樣在《人工智能建模的進(jìn)展》中也簡單討論過，我們還應(yīng)該考慮人工智能的性能和評(píng)估進(jìn)展速率時(shí)用于訓(xùn)練的數(shù)據(jù)之間的關(guān)系。AlphaGo使用來自KGS服務(wù)器的大型游戲數(shù)據(jù)集幫助實(shí)現(xiàn)了AlphaGo的能力——我還沒仔細(xì)看過過去其它相比的人工智能訓(xùn)練所用的數(shù)據(jù)，但看起來可能也是這個(gè)數(shù)據(jù)集。在AAAI上Hassabis表示DeepMind打算嘗試完全使用自我對弈來訓(xùn)練AlphaGo。這是個(gè)更加了不起的想法，但在那之前，我們可能沒法知道AlphaGo有多少性能來自于此數(shù)據(jù)庫，這個(gè)數(shù)據(jù)庫是DeepMind自己從KGS的服務(wù)器上收集的。

　　最后，除了調(diào)整硬件和數(shù)據(jù)，我們還應(yīng)該調(diào)整如何評(píng)估一個(gè)人工智能里程牌有多重要。以深藍(lán)(DeepBlue)為例，打敗Gary Kasparov的人工智能的開發(fā)中使用了明顯的相關(guān)領(lǐng)域?qū)I(yè)知識(shí)，它并不是通過從頭開始學(xué)習(xí)而實(shí)現(xiàn)該領(lǐng)域內(nèi)的通用智能。Hassabis在AAAI和其它地方說過AlphaGo比深藍(lán)更代表了通用型人工智能進(jìn)步，而且這一技術(shù)也是為通用的目的使用的。然而，這個(gè)項(xiàng)目中評(píng)估和策略網(wǎng)絡(luò)的進(jìn)展與使用的具體訓(xùn)練方案(監(jiān)督學(xué)習(xí)和自我訓(xùn)練的序列，而不是端到端學(xué)習(xí))本身是由研究人員在領(lǐng)域內(nèi)特有的專業(yè)知識(shí)所確定的，其中包括David Silver和Aja Huang，他們擁有大量關(guān)于計(jì)算機(jī)圍棋和圍棋方面的專業(yè)知識(shí)。盡管AlphaGo的棋力最終超過這些研究者，但其中的算法搜索都是之前由這些特定領(lǐng)域確定的(而且之前也提到過，部分算法——即MCTS組件——編碼了特定領(lǐng)域的知識(shí))。

　　另外，該團(tuán)隊(duì)非常大，有15-20人，超過我所知的之前的任何圍棋引擎團(tuán)隊(duì)，簡直能與深藍(lán)或沃森(Watson)這樣的大型項(xiàng)目相提并論，這在計(jì)算機(jī)圍棋史上也是絕無僅有的。所以，如果我們要合理預(yù)期一個(gè)由特定領(lǐng)域內(nèi)最聰明的頂級(jí)專家組成的團(tuán)隊(duì)在推動(dòng)某個(gè)問題的發(fā)展，那么這個(gè)努力的規(guī)模表明我們應(yīng)該稍微降低一點(diǎn)AlphaGo在我們印象中的里程碑意義。相反，如果例如DeepMind這樣的項(xiàng)目只是簡單地將現(xiàn)有的DQN算法應(yīng)用到圍棋上就取得了同樣的成就，那就會(huì)具有更重大的意義。與此同時(shí)，由特定領(lǐng)域啟發(fā)的創(chuàng)新也可能具有廣泛的相關(guān)性，評(píng)估和策略網(wǎng)絡(luò)可能就是這樣的案例?，F(xiàn)在說還有些言之過早。

　　總之，雖然可能最后證明評(píng)估和策略網(wǎng)絡(luò)確實(shí)是實(shí)現(xiàn)更通用和更強(qiáng)大人工智能系統(tǒng)的重大進(jìn)展，但我們不能在不考慮硬件調(diào)整、數(shù)據(jù)和人員的基礎(chǔ)上就僅從AlphaGo的優(yōu)秀表現(xiàn)上推導(dǎo)出這一結(jié)論。另外，不管我們認(rèn)為算法創(chuàng)新是否尤其重要，我們都應(yīng)該將這些結(jié)果理解為深度強(qiáng)化學(xué)習(xí)擴(kuò)展應(yīng)用到更大硬件組合和更多數(shù)據(jù)上的標(biāo)志，也是之前大量人工智能專家眼中解決困難問題的標(biāo)志，這些標(biāo)志本身就是我們將要了解的有關(guān)世界的重要事實(shí)。

　　專家評(píng)論以及人工智能與圍棋預(yù)測

　　AlphaGo 擊敗樊麾后，評(píng)論普遍認(rèn)為這一突然的勝利與圍棋計(jì)算機(jī)預(yù)設(shè)程序相關(guān)。需特別指出的是，DeepMind內(nèi)部人士表示原以為這要十年甚至更長時(shí)間才能實(shí)現(xiàn)。其中就包括CrazyStone設(shè)計(jì)者Remi Coulum，他在《連線》雜志一篇文章發(fā)表了類似觀點(diǎn)。我無意深入探討專家對圍棋計(jì)算機(jī)未來的觀點(diǎn)，專家們幾乎不可能對這一里程碑意義達(dá)成共識(shí)。

　　就在AlphaGo 此次勝利宣布之前，我和其他一些人在推特和其他地方表示Coulum的悲觀看法并不成立。大概一年前，Alex Champandard在一次AI游戲?qū)＜业木蹠?huì)上說在谷歌和其他公司的共同努力下，圍棋計(jì)算機(jī)程序?qū)?shí)現(xiàn)飛躍;在去年的AAAI大會(huì)上，我也咨詢了Michael Bowling(他對AI游戲也略知一二，研究了一款基本上解決了德州撲克雙人限制的AI程序)having developed the AI that essentially solved limit heads-up Texas Hold Em)，問他認(rèn)為多少年后，圍棋AI將超越人類，他回答說最多五年。所以，再次表明：這次勝利是否突然，在業(yè)內(nèi)并未達(dá)成共識(shí)，那些聲稱該勝利意義深遠(yuǎn)的觀點(diǎn)是基于不科學(xué)的專家調(diào)查，存在爭議。

　　盡管如此，這一勝利也確實(shí)讓包括AI專家在內(nèi)的一些人感到意外，Remi Coulum這類人也不可能不知道圍棋 AI。那么，該勝利出乎專家意料之外是否意味著AI本身實(shí)現(xiàn)了突破呢?答案是否定的，一直以來，專家對AI未來的看法都是不可靠的。為此，我在《人工智能建模的進(jìn)展》中調(diào)研了相關(guān)文獻(xiàn)，簡而言之，我們早就知道基于模型的預(yù)測優(yōu)于直覺判斷，定量技術(shù)預(yù)測勝于定性技術(shù)預(yù)測，qualitative ones，還有其他的因素使得我們并不該把某種所謂的直覺判斷(與正規(guī)模型及其推測相反)當(dāng)真。等一系列其他事情，相對于zh正式的模型/推論，我們不該對圍棋 AI的未來采取特定的直觀判斷。而且從少數(shù)確切的經(jīng)驗(yàn)判斷可以看出，該勝利的意義并非如此重大。從為數(shù)不多的真正實(shí)證性推測(計(jì)算圍棋達(dá)到人類水平的日期)來看，其預(yù)測并沒有很大的誤差。

　　Hiroshi Yamashita2011年起對圍棋計(jì)算機(jī)的發(fā)展趨勢進(jìn)行預(yù)測，稱四年后將出現(xiàn)圍棋計(jì)算機(jī)超越人類的節(jié)點(diǎn)，現(xiàn)在看來，僅有一年的偏差。近年來，這一趨勢放緩(基于KGS最高排名)，如果Yamashita和其他人重新預(yù)測，也許會(huì)調(diào)整計(jì)算方式，如推遲一年。但也就在AlphaGo取得勝利的前幾個(gè)星期，圍棋計(jì)算機(jī)取得了突破性進(jìn)展。我沒有從各方面仔細(xì)看這些預(yù)測內(nèi)容，但是我認(rèn)為他們原本以為這個(gè)節(jié)點(diǎn)將在十年以后甚至更長時(shí)間才會(huì)出現(xiàn)，尤其是考慮到去年圍棋計(jì)算機(jī)的發(fā)展。也許AlphaGo的勝利比預(yù)計(jì)早了幾年，但我們也總是可以期待一些超越了(基于小團(tuán)隊(duì)，有限計(jì)算資源的)一般趨勢的進(jìn)步，因?yàn)橛酗@著的更多投入、數(shù)據(jù)量和大量計(jì)算資源被用來攻克這一問題。

　　AlphaGo的發(fā)展是否偏離合理調(diào)整趨勢并不明顯，特別是因?yàn)槿缃袢藗儾]有在嚴(yán)格模擬這種趨勢方面投入太多工作。在不同領(lǐng)域中，鑒于工作、數(shù)據(jù)、硬件水平的不同，在有效的預(yù)測方法被采用之前，所謂的「突破性」進(jìn)步會(huì)看上去比實(shí)際上更讓人驚訝。

　　以上都表明我們至少應(yīng)該對AlphaGo 的勝利略微淡定。雖談不上震驚，但我也認(rèn)為這是個(gè)了不起的成就。更多地，這是我們在人工智能領(lǐng)域取得的成就的另一標(biāo)志，也展現(xiàn)了人工智能中使用各種方法的能力。

　　神經(jīng)網(wǎng)絡(luò)在AlphaGo 中起到了關(guān)鍵作用。將神經(jīng)網(wǎng)絡(luò)運(yùn)用在圍棋計(jì)算機(jī)上并不稀奇，因?yàn)樯窠?jīng)網(wǎng)絡(luò)用途廣泛——原則上，神經(jīng)網(wǎng)絡(luò)可實(shí)現(xiàn)任何可計(jì)算函數(shù)。但是在AlphaGo 的運(yùn)用再次表明神經(jīng)網(wǎng)絡(luò)不僅能夠?qū)W習(xí)一系列的事情，還能相對高效，即在和人類處理速度相似的時(shí)間范圍內(nèi)、現(xiàn)有的硬件條件下完成一些原本需要大量人類智慧的任務(wù)。而且，它們不僅能完成諸如「模式識(shí)別」這類普通(有時(shí)人類不屑)的任務(wù)，還能規(guī)劃高級(jí)策略，如在圍棋中勝出所需的謀略。神經(jīng)網(wǎng)絡(luò)的可擴(kuò)展性(不僅在于更大的數(shù)據(jù)量和計(jì)算性能，還在于不同的認(rèn)知領(lǐng)域)不僅僅通過AlphaGo來展現(xiàn)出來，最近其它各類AI成果也有所體現(xiàn)。誠然，即使沒有蒙特卡洛樹搜索(MCTS)，AlphaGo 也優(yōu)于現(xiàn)存所有配備蒙特卡洛樹搜索的系統(tǒng)，這也是整件事最有趣的發(fā)現(xiàn)之一，而一些關(guān)于AlphaGo的勝利分析卻遺漏了它。AlphaGo 并不是唯一一個(gè)可展現(xiàn)神經(jīng)網(wǎng)絡(luò)在「認(rèn)知」領(lǐng)域潛力的系統(tǒng)——近期一篇論文表明神經(jīng)網(wǎng)絡(luò)也被用于其它計(jì)劃任務(wù)。

　　AlphaGo 能否自我訓(xùn)練，其表現(xiàn)有多少可歸結(jié)于特定的訓(xùn)練法?現(xiàn)在討論還為時(shí)過早。但是論文中對硬件規(guī)格的研究使我們有理由相信只要有足夠的硬件和數(shù)據(jù)，人工智能就能極大地超越人類。這點(diǎn)，我們早已從ImageNet (譯者注：ImageNet 是一個(gè)計(jì)算機(jī)視覺系統(tǒng)識(shí)別項(xiàng)目，是目前世界上圖像識(shí)別最大的數(shù)據(jù)庫)的視覺識(shí)別結(jié)果中得知，人工智能在某些評(píng)分、語音識(shí)別和其它一些結(jié)果已經(jīng)超越了人類表現(xiàn)。但是AlphaGo 是一個(gè)重要的象征，表明「人類水平」并非AI的終點(diǎn)，現(xiàn)有的AI技術(shù)仍有很大的提升空間，尤其是DeepMind和其他公司不斷擴(kuò)大的技術(shù)研究團(tuán)隊(duì)已經(jīng)深深打上了「深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning)」的烙印。

　　同時(shí)，我也深入了解了Atari 人工智能的發(fā)展細(xì)節(jié)(也許就是今后博文的主題)，我也得出了相似的結(jié)論：Atari AI與人類智力大體相當(dāng)只會(huì)維持非常短的一段時(shí)間，即2014-2015年。目前，游戲中表現(xiàn)的中間值遠(yuǎn)在人類能力的100%以上，而平均值則達(dá)到600%左右。人工智能僅在一小部分游戲中未能達(dá)到人類水平，但是很快就會(huì)出現(xiàn)超人類的表現(xiàn)。

　　除了從AlphaGo的勝利得到經(jīng)驗(yàn)以外，還產(chǎn)生了一些其他的問題：例如：有哪些認(rèn)知領(lǐng)域是無法通過海量計(jì)算機(jī)資源、數(shù)據(jù)和專家努力取得實(shí)質(zhì)性成就的呢?經(jīng)濟(jì)中，關(guān)于什么是簡單/困難的自動(dòng)化的理論有很多，但是這些理論很少能越過人工智能所取得的成就這個(gè)表面問題，來探討我們?nèi)绾我栽瓌t性的方式定義一般而言的簡單/困難認(rèn)知這一更復(fù)雜的問題。另外，還有一個(gè)經(jīng)驗(yàn)主義問題，在哪些領(lǐng)域已存在(超越)人類級(jí)別性能的足夠數(shù)據(jù)/計(jì)算資源，或者說即將超越。比如，如果谷歌宣布開發(fā)出了語言能力高度發(fā)達(dá)的計(jì)算機(jī)個(gè)人助手，其中部分訓(xùn)練來自于谷歌海量數(shù)據(jù)和最新的深度(強(qiáng)化)學(xué)習(xí)技術(shù)，我們會(huì)感到驚訝嗎?這個(gè)問題很難回答。在我看來，此類問題，包括AI安全性，對AI在認(rèn)知/經(jīng)濟(jì)相關(guān)領(lǐng)域的發(fā)展提出了更嚴(yán)格的建模要求。

　　李世石之戰(zhàn)和其它未來發(fā)展

　　本著基于模型的外推法勝于直覺判斷的精神，我制作了以上圖表，展現(xiàn)DeepMind尺度轉(zhuǎn)換研究中CPU和Elo得分的直觀聯(lián)系。我將每步時(shí)長延長為相當(dāng)于5分鐘時(shí)間的計(jì)算，更接近于與李世石比賽的實(shí)際情況，而不是尺度轉(zhuǎn)換研究中的每步2秒。這就假定在技巧水平更高的情況下，硬件運(yùn)算次數(shù)不變(可能與真實(shí)情況不符，但是正如技術(shù)預(yù)測文章中寫道的：初級(jí)模型也比沒有模型好)。該預(yù)測指出只需提升硬件或延長AlphaGo的思考時(shí)間，AlphaGo有可能達(dá)到李世石的水平(如上圖所示，3500分左右)。然而，DeepMind 幾乎不可能寄希望于此——除了讓AlphaGo用比研究中更長的時(shí)間進(jìn)行計(jì)算最佳落子外，DeepMind還會(huì)進(jìn)行大量的算法提升。Hassabis 在美國人工智能協(xié)會(huì)(AAAI)中表示他們正以各種當(dāng)方式改進(jìn)AlphaGo 。確實(shí)如此，他們還聘用了樊麾來幫助他們進(jìn)行改進(jìn)。

　　基于Hassabis自信表現(xiàn)(他可以接觸相關(guān)數(shù)據(jù)，如目前的AlphaGo 比去年10月的AlphaGo 提升了多少)等諸多考慮因素，都表明AlphaGo 有很大幾率擊敗李世石。若真成功了，我們應(yīng)該進(jìn)一步提升對深度強(qiáng)化學(xué)習(xí)可擴(kuò)展性的信心，可能還包括評(píng)估/策略網(wǎng)絡(luò)(value/policy networks)。若失敗，則表明我們所認(rèn)為的深度加強(qiáng)學(xué)習(xí)和硬件規(guī)模還沒有達(dá)到我們所認(rèn)為的程度，尚無法觸及認(rèn)知的某些方面。同樣，如果自我學(xué)習(xí)被證明足以使人工智能性能相當(dāng)，抑或評(píng)估/策略網(wǎng)絡(luò)能夠在其他比賽中超越人類，我們同樣也應(yīng)該增加現(xiàn)代人工智能技術(shù)擴(kuò)展性和通用性的評(píng)價(jià)。

　　最后關(guān)于「通用AI(general AI)」(譯者注：通用AI指具有對普遍問題的認(rèn)知、解決能力的AI)。正如之前所提到的，Hassabis 更強(qiáng)調(diào)所謂的評(píng)估或策略網(wǎng)絡(luò)的通用性，而不是深藍(lán)(Deep Blue)的局限設(shè)計(jì)。然而事實(shí)更復(fù)雜，不能簡單地一分為二(要記得，AlphaGo 為蒙特卡洛樹搜索使用了某些手工開發(fā)的功能)，仍然是以上所說的深度加強(qiáng)學(xué)習(xí)的通用性。

　　自DeepMind 2013年發(fā)表關(guān)于Atari的重要論文以來，深度強(qiáng)化學(xué)習(xí)已經(jīng)被廣泛應(yīng)用于現(xiàn)實(shí)世界機(jī)器人和人機(jī)對話中以完成各類任務(wù)。考慮到在算法略微甚至無手工調(diào)試的情況下，深度強(qiáng)化學(xué)習(xí)已經(jīng)在很多領(lǐng)域有了成功應(yīng)用，有理由認(rèn)為這些技術(shù)已經(jīng)十分通用。然而，我們這里所討論的所有案例，目前所取得的進(jìn)步大部分局限于展示建立狹窄系統(tǒng)所需的通用方法，而不是建立通用系統(tǒng)所需的通用方法。前者的取得的進(jìn)展并不是后者取得實(shí)質(zhì)性進(jìn)展的必要條件。而后者要求將機(jī)器學(xué)習(xí)遷移到至其它重要領(lǐng)域，也許尤其是經(jīng)濟(jì)或安全相關(guān)的領(lǐng)域，而不是局限在Atari或AlphaGo這塊。

　　這表明嚴(yán)格的AI建模發(fā)展中一個(gè)重要的因素可能是確定人工智能操作系統(tǒng)中不同等級(jí)的通用性(而不是產(chǎn)生它們的通用方法，盡管這點(diǎn)也很重要)。這也是我感興趣的地方，未來可能會(huì)在該領(lǐng)域入更多，我很好奇人們對于上述問題會(huì)怎么想。

特別提醒：本網(wǎng)內(nèi)容轉(zhuǎn)載自其他媒體，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，并請自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

贊(0)

標(biāo)簽：AI asp CPU Facebook GPU word 人工智能微博操作系統(tǒng)數(shù)據(jù)庫新聞報(bào)道服務(wù)器機(jī)器人歐洲美國計(jì)算機(jī)谷歌

相關(guān)推薦

網(wǎng)站地圖滬ICP備18035694號(hào)-2

滬公網(wǎng)安備31011702889846號(hào)