-
陳經(jīng):被圍棋AI橫掃后,職業(yè)棋手應(yīng)該如何提高水平?
關(guān)鍵字: 圍棋AI柯潔MasterAlphaGo谷歌人工智能價值網(wǎng)絡(luò)算法中韓高手們集體實戰(zhàn)驗證套路的辦法,其實暗合了AlphaGo強(qiáng)化學(xué)習(xí)生成價值網(wǎng)絡(luò)的方法。AlphaGo會進(jìn)行幾千萬次的高質(zhì)量“自我對局”,比高手們的對局加起來都多得多。人類高手們反復(fù)實戰(zhàn)能判斷幾十個局面都不容易,AlphaGo的訓(xùn)練流水線卻能生成幾千萬個局面,用于價值網(wǎng)絡(luò)的訓(xùn)練。
價值網(wǎng)絡(luò)是個和策略網(wǎng)絡(luò)結(jié)構(gòu)相似的多層神經(jīng)網(wǎng)絡(luò),但是里面的系數(shù)不一樣,它能對一個靜態(tài)局面不搜索直接給出勝率,判斷誰占優(yōu)。有了策略網(wǎng)絡(luò)與價值網(wǎng)絡(luò),AlphaGo不需要搜索都可以下得很好了,對每一招策略網(wǎng)絡(luò)提供的選點,價值網(wǎng)絡(luò)給出勝率判斷,選擇最好的一個選點下就可以了。2016年中Deepmind說AlphaGo棋力取得突破,就特別說了價值網(wǎng)絡(luò)取得了巨大的進(jìn)步。
價值網(wǎng)絡(luò)是人類思考中沒有的,在谷歌論文之前甚至沒有這個概念。從學(xué)術(shù)角度來說,這可能是谷歌論文最大的貢獻(xiàn),深度學(xué)習(xí)生成策略網(wǎng)略并非Deepmind最先提出的。雖然對人類來說有點不自然,但價值網(wǎng)絡(luò)正是人類可以學(xué)習(xí)的地方,職業(yè)高手們也許能從這個方向上取得棋力的突破,但需要科學(xué)的方法。
人類能通過多次實戰(zhàn)、打譜,在腦中形成直覺,看一眼局面就能根據(jù)棋形產(chǎn)生一些靠譜的候選點。對人類直覺方便之處在于,候選點有“局部性”,人只要看局部就能有“關(guān)鍵”點的直覺。有時一些照顧全局的棋招會被夸張地稱為“耳赤妙手”。人類自然傾向就是局部觀察,眼睛看畫面時自然會聚焦在一小塊地方,棋手思維也是如此。高手要逆著這個直覺觀察全局,多找一些候選點。范西屏是中國古代水平最高的棋手之一,李步青對其它人這樣形容他的棋藝:“君等于弈只一面,余尚有兩面,若西屏先生則四面受敵者也”,這是說范西屏全局觀念特別強(qiáng)。
但這種全局觀念畢竟難于描述,成了高手中只可意會不可言傳的“大局觀”。人類對局部的精確描述卻不斷取得進(jìn)展,局部定式發(fā)展出成千上萬個,甚至有《定式大全》這樣的書。局部數(shù)目的手段與技術(shù)也不斷發(fā)展,目數(shù)價值精確到幾分之一。大局觀方面卻一直沒有太大的進(jìn)展。甚至一些90后年青高手認(rèn)為,布局不要太看重,花時間想也想不出什么東西,隨便搞搞套路或者下一些過得去的著手應(yīng)付下,大量時間要留在中后盤決戰(zhàn)。
從實戰(zhàn)來說,這也確實是勝率較高的選擇,你脫離套路未必占優(yōu),就算花大量時間琢磨布局選點便宜了兩三目,后面時間不夠了隨時崩盤,因為人家后面肯定會來“攪”。孟泰齡主要的獲勝方式,就是利用一些年青棋手忽視布局這個特點,他精心研究布局,多次在局面判斷中取得優(yōu)勢,后面拼了老命把優(yōu)勢守下來。但是由于年青高手們沖擊實在太厲害,往往頂不住,泰哥也無法取得戰(zhàn)績的突破,只能維持住一流高手的地位。
職業(yè)棋手面臨著訓(xùn)練內(nèi)容與方法的革命
職業(yè)棋手們水平取得突破,也和一些圍棋道場的嚴(yán)格軍事化訓(xùn)練手段分不開。沖段小棋手們做海量的死活題,認(rèn)真進(jìn)行大量的對局,嚴(yán)謹(jǐn)計算的態(tài)度與人腦中“策略網(wǎng)絡(luò)”的質(zhì)量都不錯。死活題有上千年的歷史積累,多年的實戰(zhàn)提供了大量素材,還有不少高手喜歡創(chuàng)作死活題。日本的《發(fā)陽論》吸收了中國古代棋書中不少素材,韓國《天龍圖》是實戰(zhàn)積累。死活題素材不缺,有道場、有網(wǎng)絡(luò),高水平實戰(zhàn)鍛煉的機(jī)會不缺,套路相關(guān)的信息流傳也快,職業(yè)棋手群體水平迅速進(jìn)步。
但是,各道場并沒有多少“局面判斷”的題目積累,這是一個非常嚴(yán)重的技術(shù)性缺失。如果棋手群體有意識地在這方面努力,是有辦法可想的??梢约w討論一些局面,取得一致,拿出來做為習(xí)題或者“訓(xùn)練樣本”。也可以在網(wǎng)絡(luò)上組織實戰(zhàn),主動對一些局面統(tǒng)計勝率,獲得寶貴的數(shù)據(jù),達(dá)成一致??梢苑e累大量網(wǎng)站與實戰(zhàn)高水平棋譜,對一些同類開局進(jìn)行大數(shù)據(jù)分析。這樣的分析程序已經(jīng)有了,但主要是正式比賽棋譜不夠多,如果能和對弈網(wǎng)站聯(lián)手,增加海量棋譜,局面統(tǒng)計分析就更為精確。
現(xiàn)在有了高水平圍棋AI,就更為方便了。高水平圍棋AI,以后一定會普及。如果放開AI數(shù)據(jù)后門,就能看到局面的具體勝率,甚至價值網(wǎng)絡(luò)對局面的估值。甚至也可以把訓(xùn)練好的價值網(wǎng)絡(luò)單獨(dú)抽出來做成小程序幫助分析。這樣,應(yīng)該可以象死活題一樣積累出海量的局面判斷素材。和以前不一樣的是,這些局面判斷題有參考答案,或更為權(quán)威的答案,并不僅僅是思考題。
職業(yè)棋手們可以去盯著這些局面判斷題,進(jìn)行全局思考。為什么這些局面是黑優(yōu)不是白優(yōu)?為什么和自己的感覺相反?為什么AI或者統(tǒng)計結(jié)論明顯,自己卻沒有感覺?這樣仔細(xì)琢磨,一定會想出一些道理。琢磨久了,甚至作出判斷的速度都會加快。AI的策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)是相似的,人類既然能夠有“策略網(wǎng)絡(luò)”的直覺系統(tǒng),同樣在人腦中訓(xùn)練出“價值網(wǎng)絡(luò)”應(yīng)該是可行的。
從人類等級分最高的柯潔的棋藝來看,他可能就有這樣的特點??聺嵉乃懵凡⒉皇亲钌畹模瑪?shù)目也不是最強(qiáng),也不是妙手一堆,當(dāng)然這些都不弱。柯潔自稱最強(qiáng)的是判斷,有時直接判斷不用數(shù)目就知道是虧了還是賺了,是通過4000多盤網(wǎng)棋成長起來的。很可能柯潔在數(shù)千盤對戰(zhàn)中不自覺地注意了對腦中“價值網(wǎng)絡(luò)”的訓(xùn)練,形成了自己領(lǐng)先其余高手的局面判斷能力。這些棋手與棋迷認(rèn)為,柯潔是下得最象AI的棋手。
職業(yè)棋手群體可以把這個過程工程化,主動收集有教育意義的反直覺局面,棋手們主動接受類似機(jī)器學(xué)習(xí)的“人腦學(xué)習(xí)”訓(xùn)練,形成直覺一樣的局面判斷能力。在高水平AI的幫助下,這個過程應(yīng)該可以迅速縮短,不用非常辛苦地積累素材。對各個道場的培訓(xùn)水平而言,局面判斷素材以及使用AI幫助訓(xùn)練的能力,會成為重要因素。國際象棋AI早就這樣幫助人類棋手訓(xùn)練了。
這種局面判斷,天生就是全局的。這將使人類高手的圍棋思維,從之前的局部定式、局部數(shù)目、局部戰(zhàn)斗,飛躍進(jìn)步到全局判斷、全局戰(zhàn)斗,這將是吳清源大師窮畢生之力思索并力推的“21世紀(jì)圍棋”、“六合圍棋”時代。吳清源2014年去世了,沒有看到圍棋AI的革命性進(jìn)展。但是在圍棋AI的幫助下,這個時代將不可避免的到來,人類高手圍棋水平將再次取得突破性進(jìn)展。
而對于Master這樣的圍棋AI,也不要過于恐懼。它的秘密武器就是以價值網(wǎng)絡(luò)為基礎(chǔ)的全局思維,新手不斷,明快取舍。AI的價值網(wǎng)絡(luò)是基于全局的,所以全局配置稍有不同,它的著手就會發(fā)生變化,遠(yuǎn)遠(yuǎn)的幾個散子人類看不到什么,AI卻能考慮到下出新手。
人類高手30秒計算時間過短,碰到的又是完全不同的棋路需要計算,自然容易出錯被狠狠打擊。甚至有些著手,人類高手們“不知道AI是什么意思”,過了一些招數(shù)才發(fā)現(xiàn)吃大虧了。有些上陣的高手甚至由于恐懼,對自己失去信心,明顯技術(shù)變形,早早就大敗了。
人類由于生理條件的限制,需要更多的思考時間。從探索圍棋技藝的角度,要求更多思考時間是合理的。如果在布局與中盤戰(zhàn)斗中領(lǐng)先或者頂住了,收官時因時間緊張出小錯敗北,這并不可怕。但是人類必須在布局方向選擇、接觸戰(zhàn)的局面判斷中更多地引入全局思維,接近AI的水平,才有機(jī)會頂住。
AI由于MCTS算法天生的弱點,很大可能仍然是有缺陷的,太復(fù)雜的局面會出現(xiàn)算路問題,或者局部死活出現(xiàn)漏算,而這是人類的優(yōu)勢。人類的語言邏輯推理能力,局部嚴(yán)密算路是有優(yōu)勢的!對于復(fù)雜局面,人類可以總結(jié)歸納主要矛盾,設(shè)計出組合手段,推理出可行次序。而AI由于MCTS的框架特性,什么都要算到終局,不可能什么都模擬到,大量算力浪費(fèi)在非關(guān)鍵的邏輯里,發(fā)生漏算是可能的。當(dāng)然前提是人類高手需要頂住,不能讓AI隨便就領(lǐng)先10幾20目,那AI可以簡明地控制局面,對手毫無機(jī)會。
如果人類高手能夠?qū)W習(xí)價值網(wǎng)絡(luò)的全局思維主動訓(xùn)練,取得棋藝的飛躍進(jìn)步,再給以足夠的思考時間,和AlphaGo以及其它水平不斷進(jìn)步的高水平AI對戰(zhàn)還是有勝機(jī)的,而這對圍棋發(fā)展的意義極為重大。Deepmind開發(fā)出AlphaGo這樣的革命性圍棋程序,將確定無疑地引領(lǐng)圍棋藝術(shù)再一次的飛躍進(jìn)步,人類棋手也會獲益非淺。
本文系觀察者網(wǎng)獨(dú)家稿件,文章內(nèi)容純屬作者個人觀點,不代表平臺觀點,未經(jīng)授權(quán),不得轉(zhuǎn)載,否則將追究法律責(zé)任。關(guān)注觀察者網(wǎng)微信guanchacn,每日閱讀趣味文章。
-
本文僅代表作者個人觀點。
- 請支持獨(dú)立網(wǎng)站,轉(zhuǎn)發(fā)請注明本文鏈接:
- 責(zé)任編輯:武守哲
-
最新聞 Hot
-
目睹這些場景,良心不會痛嗎
-
“金磚為什么火?因為沒走西方拉幫結(jié)派的老路”
-
“公用火力發(fā)電比例高于中國,美領(lǐng)導(dǎo)地位?!?/a>
-
他倆定期“秘密對話”?克宮回應(yīng)
-
以色列襲擊黎巴嫩南部,致3名記者死亡
-
美衛(wèi)星解體恐殃及中國,“很難評估有多糟糕”
-
怕特朗普攪局,歐盟擬加碼“長期維持”對俄制裁
-
“伊朗已下令準(zhǔn)備開戰(zhàn),考慮發(fā)射1000枚導(dǎo)彈回?fù)簟?/a>
-
英國國王承認(rèn)了,但也沒有提賠償
-
美國發(fā)布首份AI備忘錄,“得防中國戰(zhàn)略突襲”
-
“英國軍情五處完全在胡說八道”
-
普京回應(yīng)“朝軍援俄”傳聞
-
被批“中國有支票美國有清單”,他又畫餅忽悠…
-
又嗆上了:野蠻人也好意思自詡捍衛(wèi)文明…
-
沒中國能成嗎?澳大利亞部長這么說
-
特朗普威脅襲擊莫斯科市中心?普京回應(yīng)
-