亚洲熟妇av一区二区三区,亚洲av中文无码乱人伦在线视色,亚洲人成网站色www,亚洲欧美日韩国产综合在线一区 ,亚洲av之男人的天堂网站

分享
Scan me 分享到微信

Facebook田淵棟:第四局AlphaGo敗招的分析

人工智能還是有缺陷的。

  

        第四局李世石的78手L11挖被大家譽為“神之一手”,在DarkForest的策略網(wǎng)絡(luò)輸出里排第31位,而J11靠排第10位。因此我覺得可能是AlphaGo沒有算到這一步。如果對方下了一手機器沒算到的棋,則蒙特卡羅(MCTS)搜索樹會清空,然后重新開始搜索,不應(yīng)該會太快做出結(jié)論。李喆六段告訴我K10這一手是秒下,那有可能是時間管理子系統(tǒng)在搜索樹清空時有程序上的漏洞,因此過早地將搜索結(jié)果返回了。MCTS在一開始搜索的時候,因為模擬次數(shù)不夠多,每步的勝率方差非常大,所以返回一個不夠好的著法如K10是很正常的(在DarkForest里面這著排在前四)。這個比較容易修正。

  另一種可能是,AlphaGo的估值網(wǎng)絡(luò)出了問題。因為估值網(wǎng)絡(luò)的權(quán)重是0.5,而不管快速走子從一個局面開始重復(fù)了多少次,它的權(quán)值也是0.5。對于一個局面,估值網(wǎng)絡(luò)只得到一個數(shù),而從這個局面往下走子,走多后會得到很多個數(shù),統(tǒng)計上應(yīng)該更為重要,但是AlphaGo不是這樣想的,兩邊各自算得勝率后直接對半平均了。所以如果估值網(wǎng)絡(luò)對某個局面得到的結(jié)果不對,則會極大地影響對該局面的勝率估計。注意這里得到很多個數(shù)的原因是按照文章,葉結(jié)點在積累了一定盤數(shù)后(40)才展開,而不是第一次訪問就展開,以提高DCNN的效率。DarkForest沒有用到估值網(wǎng)絡(luò),在L11的挖之后正確地返回了L12和L10這兩個應(yīng)手,據(jù)李喆六段說,都是正確的應(yīng)手,這間接支持了這個推斷。AlphaGo在87手之后才意識到自己已經(jīng)大大落后,可能也是由于同樣的問題,比如說把右邊的黑大龍看成活的。

  那為什么估值網(wǎng)絡(luò)會出問題呢?可能是用于訓(xùn)練估值網(wǎng)絡(luò)的自學(xué)習(xí)(Self-Play)的樣本分布有盲點。為了提高樣本生成速度,AlphaGo的自學(xué)習(xí)樣本是通過用兩個純粹的DCNN互搏來生成的(完全沒有搜索),而DCNN下出來的棋因為是純模式識別,一個大問題是死活不正確,經(jīng)常是在死棋里面下子。如果黑白兩方都犯了死活不分的毛病,然后一方比如說白僥幸勝了,那估值網(wǎng)絡(luò)就會認為方才白的死棋局面是好的。這樣估值網(wǎng)絡(luò)就會染上同樣毛病,在中盤復(fù)雜的對殺局面中判斷失誤。若是這種情況就不好處理,AlphaGo下一局可能還會有同樣的問題。這里可以看到,電腦本身也不是靠窮舉來下棋的,圍棋畢竟太復(fù)雜,每一步都要剪枝,離當(dāng)前局面近的仔細剪(用DCNN),離當(dāng)前局面遠的快速剪(快速走子),直到終局得到勝負為止。剪枝的好壞直接關(guān)系到棋力的高低,DCNN只是一個有大局觀的非常好的剪枝手段,它的盲點也會通過敗著反映出來。

  關(guān)于DCNN+MCTS打劫。首先因為MCTS是全局估計分?jǐn)?shù)的,劫爭本身和其它局面在程序看來沒有本質(zhì)區(qū)別,都只是一步棋而已。劫的特殊性在DarkForest上表現(xiàn)為碰到有劫可提的情況時,DCNN經(jīng)常會以非常高的概率(0.8以上)返回提劫這一手??赡艿脑蚴牵冱c是作為單獨的特征輸入的,所以DCNN學(xué)習(xí)到了它和輸出(提劫)的強關(guān)聯(lián)性。這樣在MCTS搜索時會強烈偏向這一手。這在很多情況下是正確的,但有時劫很小可以不予理會,或者碰到兩個或者多個劫需要放棄一個,那“遇劫必提”的偏向性就會給搜索帶來麻煩。有時連環(huán)劫電腦反復(fù)提就是這個原因。AlphaGo可能會有這個問題,或者是反向的問題(比如說提劫概率很小),這樣在下棋時大家就會感覺到它在避免開劫,或者在含劫的變化中計算失誤。

  關(guān)于地平線效應(yīng)(Horizon Effect)。國象的AI里面會有這個效應(yīng),比如說只搜索10步,計算到別人的后被自己的后吃了結(jié)束,然后用簡單的加和法估計下盤面發(fā)現(xiàn)自己多個后特別爽,覺得這個分支特別好。其實再往下走一步自己的后也被別人吃了,或者掉入陷阱,這樣就誤算盤面價值。但是圍棋因為每次模擬都是走到底的,可能前30步是用DCNN,之后就是用快速走子,雖然走子質(zhì)量上有差距,但是大方向上不會錯,所以地平線效應(yīng)在某種程度上是減弱了。而且這次AlphaGo的失誤在20步以內(nèi),應(yīng)該還在DCNN的范圍里面,所以地平線效應(yīng)的可能性比較低。

  應(yīng)大家要求,這里放Game3的勝率,李世石毫無機會。

  Game4的還沒空全跑,以下是關(guān)鍵的一段。注意DarkForest只是5d,所以沒有及早看出來黑掛了也是正常的。

  編者一起放上作者的DarkForest對AlphaGo和李世石前兩局每步的勝率估計:

  首先說明一下每個數(shù)據(jù)點是DF在當(dāng)前局面下給出最優(yōu)應(yīng)手,同時給出的勝率。(文|田淵棟)

    如果您對您所在行業(yè)有很深認知,也想在我們的平臺上說點什么,我們歡迎您來投稿!

喜歡您正在閱讀的內(nèi)容嗎?歡迎免費訂閱泰伯每周精選電郵。 立即訂閱

參與評論

【登錄后才能評論哦!點擊

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回復(fù){{item.replynum}}
    {{child.username}} 回復(fù) {{child.to_username}}:{{child.content}}

更多精選文章推薦