-
陳經(jīng):被圍棋AI橫掃后,職業(yè)棋手應(yīng)該如何提高水平?
關(guān)鍵字: 圍棋AI柯潔MasterAlphaGo谷歌人工智能價(jià)值網(wǎng)絡(luò)算法【文/ 觀察者網(wǎng)專欄作者 陳經(jīng)】
2016到2017歲末年初的三天假期,棋迷們驚喜地發(fā)現(xiàn)圍棋對(duì)弈網(wǎng)站出現(xiàn)了好幾個(gè)高水平圍棋AI。
在弈城上像勞模一樣一直猛下的是日本的DEEPZEN,至2017年1月3日五天時(shí)間已經(jīng)下了超過(guò)200盤,輸了20盤。之前DEEPZEN在高手不多的KGS圍棋網(wǎng)上也是這么猛下,人們已經(jīng)熟悉了它的風(fēng)格。DEEPZEN在弈城的戰(zhàn)績(jī)并不出人意料,甚至有點(diǎn)令人失望。雖然它勝多負(fù)少,但主要是勝不帶P標(biāo)志的業(yè)余棋手,對(duì)職業(yè)棋手輸?shù)枚啵€沒(méi)有世界冠軍級(jí)棋手出手測(cè)試。
另一個(gè)一上線就引發(fā)關(guān)注的是騰訊野狐圍棋的“刑天”。騰訊在2016年11月上線的AI“絕藝”在一個(gè)月中已經(jīng)打出了不小的名氣,勝了柯潔一盤,5:1勝樸廷桓。這讓人們對(duì)國(guó)產(chǎn)AI有了信心,騰訊也報(bào)名了2017年3月在日本舉辦的AI圍棋世界錦標(biāo)賽。但是高手們似乎摸清了絕藝的路數(shù)找到了對(duì)付它的辦法,柯潔對(duì)絕藝的戰(zhàn)績(jī)是3:1,不少職業(yè)高手都戰(zhàn)勝過(guò)它,絕藝出過(guò)一些明顯的bug。因此從11月底,絕藝再?zèng)]下過(guò)棋,下線研發(fā)升級(jí)去了。
一個(gè)月后,2016年12月27日,升級(jí)版本“刑天”又上線開始下棋。這次升級(jí)應(yīng)該有進(jìn)步,對(duì)柯潔戰(zhàn)成5:2,對(duì)樸廷桓4:1。但不能說(shuō)有本質(zhì)進(jìn)步,柯潔明顯找到了對(duì)付它的辦法,幾次吃死它的大龍,刑天死活還是有問(wèn)題。這些測(cè)試棋全部是20秒或30秒一手的快棋,刑天對(duì)世界冠軍級(jí)高手們的勝利,很大程度是高手們因?yàn)闀r(shí)間壓力出現(xiàn)錯(cuò)誤,如柯潔有一盤已經(jīng)殺死了刑天的大龍絕對(duì)優(yōu)勢(shì),后面不小心輸回去了。騰訊開發(fā)的AI水平已經(jīng)很高了,職業(yè)棋手感覺它的實(shí)力和2016年3月與李世石對(duì)戰(zhàn)的AlphaGo版本V18相當(dāng)。職業(yè)棋手們已經(jīng)找到了刑天的漏洞,對(duì)它有辦法了不會(huì)太怕。
上圖是2016年12月30日柯潔第一次對(duì)陣勝刑天,就執(zhí)黑大勝。本局柯潔早早就吃掉刑天棋盤右邊的一條大龍,最后三招柯潔連下三個(gè)單長(zhǎng)走起了五子棋,估計(jì)是人類操作員手動(dòng)替刑天認(rèn)輸了。AI如果走出這樣的棋,即使一時(shí)對(duì)人類高手勝多負(fù)少,棋手們也不會(huì)怕。
這時(shí)弈城網(wǎng)站上的Master在2016年12月29日也開始下棋了,一開始并不引人關(guān)注,開始10多局勝的并不是世界冠軍級(jí)棋手。隨著12月30日Master對(duì)排名第一第二的柯潔與樸廷桓各勝2局取得20連勝,終于引起了關(guān)注。棋迷與棋手并不是太吃驚,因?yàn)橹敖^藝與刑天也有這樣的驚艷表現(xiàn),而且Master下的是20秒的快棋,20秒時(shí)間太短高手容易犯錯(cuò),30秒高手們會(huì)好多了。
棋迷們喜大普奔,這么多高水平的AI同時(shí)在對(duì)弈網(wǎng)站上,AlphaGo的論文養(yǎng)出了一堆狗仔,“群狗鬧新年”太有意思了。接下來(lái)職業(yè)棋手和棋迷們自然的預(yù)期是,隨著每手時(shí)間提升至30秒,高手們耐心琢磨也找到Master的漏洞終于勝出,對(duì)它的預(yù)期和刑天差不多。
但事實(shí)證明,Master的水平比刑天要高得多。在弈城達(dá)成30連勝后,Master轉(zhuǎn)戰(zhàn)野狐,除1月1日新年休息了一天,保持每天10局的節(jié)奏。到2017年1月3日,Master達(dá)成了50連勝,對(duì)手中包括16位世界冠軍,三國(guó)水平最高的柯潔、樸廷桓、井山裕太都在其中。人類高手們排隊(duì)輪流上陣,不一會(huì)就倒下被門板抬走。人類一勝難求,甚至沒(méi)有出現(xiàn)過(guò)勝機(jī)。經(jīng)常是一個(gè)局部就大為落后,Master早早領(lǐng)先10多目甚至20目以上,收官時(shí)再“讓”給人類一些目數(shù)送成4目半、2目半或者半目勝。
人類水平最高的棋手群體,在Master面前這樣漏洞百出,這讓一些職業(yè)棋手以及棋迷們有些難以接受。
Master的神秘身份
Master的身份顯然就是AlphaGo的升級(jí)版本,我斷定沒(méi)有其它可能。Master在弈城注冊(cè)為韓國(guó)職業(yè)棋手,這是因?yàn)锳lphaGo勝了李世石后獲得了韓國(guó)棋院頒發(fā)的九段證書。1個(gè)月前在KGS天元開局虐殺DEEPZEN的GodMoves很可能也是AlphaGo,應(yīng)該是放CPU與GPU較少的單機(jī)版到各網(wǎng)站測(cè)試。谷歌在11月宣稱AlphaGo取得了巨大進(jìn)步,將于2017年初復(fù)出下棋。谷歌CEO還訪問(wèn)了中國(guó)棋院,如果達(dá)成與柯潔的第二次人機(jī)大戰(zhàn)協(xié)議不奇怪。谷歌一向有簽保密協(xié)議的作風(fēng),但中國(guó)棋院要求谷歌放出單機(jī)版進(jìn)行公開測(cè)試也正常。
谷歌對(duì)AlphaGo有信心了,放出來(lái)測(cè)試不怕被找到bug,主動(dòng)或者應(yīng)邀出來(lái)公測(cè)是自然的發(fā)展,時(shí)間也對(duì)得上。一個(gè)有趣的細(xì)節(jié)是,參與測(cè)試的棋手中,孟泰齡只獲得過(guò)一個(gè)國(guó)內(nèi)冠軍,離世界冠軍們水平還差一點(diǎn),但是他卻有機(jī)會(huì)與Master下了四盤棋。我猜測(cè)這是因?yàn)?,Master和AlphaGo的“人肉機(jī)械臂”操作者都是谷歌論文的作者之一Aja Huang,他經(jīng)常上WeiqiTV看孟泰齡的節(jié)目,是他的粉絲,因此多次邀請(qǐng)他與Master對(duì)局。
也有說(shuō)Master可能是韓國(guó)研發(fā)的AI,這個(gè)可能性極低。圍棋AI的研發(fā)是有軌跡的,象騰訊這樣參照谷歌論文快速達(dá)到很高水平是可以理解的,但是也需要出來(lái)測(cè)試找到問(wèn)題又回頭想辦法,不太可能悶頭研發(fā)一出來(lái)就天下無(wú)敵。而谷歌經(jīng)過(guò)多個(gè)版本的升級(jí),確實(shí)有這個(gè)實(shí)力。2016年中,Deepmind在學(xué)術(shù)報(bào)告上就宣稱后續(xù)版本能讓V18四個(gè)子了,又取得了巨大進(jìn)步。
Master達(dá)成50連勝后并未終止下棋,1月4號(hào)上午又繼續(xù)開戰(zhàn)。如果是論勝負(fù),由于Master只選擇30秒的快棋,對(duì)人類高手來(lái)說(shuō)思考時(shí)間不足難以發(fā)揮最高水平。而Master固定地每8秒下一次,時(shí)間根本沒(méi)用完,這是機(jī)器天然的優(yōu)勢(shì)。人類高手對(duì)戰(zhàn)時(shí)經(jīng)常選擇20秒的讀秒,30秒算網(wǎng)棋中時(shí)間長(zhǎng)的了,但基本是練習(xí)?,F(xiàn)在對(duì)Master的挑戰(zhàn)已經(jīng)帶上了悲壯色彩,比正式比賽氣氛還要激烈,野狐圍棋的創(chuàng)始人古力九段聲稱第一個(gè)戰(zhàn)勝M(fèi)aster的人獎(jiǎng)金10萬(wàn)元。
由于Master的棋力極高,又不走人類棋手習(xí)慣的套路,很多局面都需要強(qiáng)度極大的思考,30秒人類高手實(shí)在是不夠,會(huì)出不少漏洞。因此,如果還是30秒的棋局,Master的勝利會(huì)一直延續(xù)下去。有些讀秒功夫強(qiáng)的棋手號(hào)稱快慢棋水平差不多,但那是人與人在一些常見套路中對(duì)戰(zhàn)。而且讀秒功夫強(qiáng)是說(shuō)后半盤收束,布局與前半盤如果出現(xiàn)新型,總是得停下來(lái)思考,10來(lái)分鐘都算短的,半小時(shí)或1小時(shí)以上的長(zhǎng)考也常見。
上圖是1月3日柯潔與Master一個(gè)戰(zhàn)斗告一段落??聺嵒ǖ袅藘纱巫x秒(一共就三次30秒)才在左上角的戰(zhàn)斗中頂住了。黑吃掉白四子目數(shù)不小,白也沒(méi)有安定,應(yīng)該至少是不落后。后面Master也選擇了激烈的下法,柯潔只剩下一次30秒,應(yīng)對(duì)不利輸?shù)袅?。在新型的?zhàn)斗中,其他棋手基本會(huì)被Master打垮。
因此,Master對(duì)人類最高水平棋手取得50連勝這個(gè)事實(shí),不宜過(guò)于夸張。圍棋AI的算法特性是,搜索空間是指數(shù)增長(zhǎng)的,幾十倍時(shí)長(zhǎng)只是帶來(lái)搜索深度增加幾層,幾秒鐘與幾十分鐘的搜索可能棋力并無(wú)本質(zhì)提升。增加時(shí)長(zhǎng)更可能是用于MCTS的隨機(jī)模擬終局?jǐn)?shù)量,模擬質(zhì)量能上升一些。達(dá)到基本時(shí)長(zhǎng)保證足夠的搜索深度與模擬的局面數(shù)量之后,再增加時(shí)間意義并不太大。
AlphaGo在分布式版本有1202個(gè)CPU和176個(gè)GPU,比“單機(jī)版”的48個(gè)CPU與8個(gè)GPU數(shù)多幾十倍,但是對(duì)單機(jī)版的勝率70%并沒(méi)有本質(zhì)棋力提升。實(shí)戰(zhàn)證明,Master和刑天思考幾秒或者十幾秒就有基本的水平了。如果能夠戰(zhàn)勝“秒下”的AI版本,戰(zhàn)勝思考時(shí)間更長(zhǎng)的版本沒(méi)有本質(zhì)的困難。
而人類高手群體在這次Master翻牌式的點(diǎn)名測(cè)試中全敗,表現(xiàn)出了一些過(guò)去可能不太重視的弱點(diǎn),值得好好總結(jié)分析。本文從圍棋棋藝與“棋機(jī)結(jié)合”的角度進(jìn)行技術(shù)解讀。前面是新聞式的介紹,閱讀后面的內(nèi)容就需要對(duì)圍棋技術(shù)與計(jì)算機(jī)算法有一定的了解。
-
本文僅代表作者個(gè)人觀點(diǎn)。
- 請(qǐng)支持獨(dú)立網(wǎng)站,轉(zhuǎn)發(fā)請(qǐng)注明本文鏈接:
- 責(zé)任編輯:武守哲
-
目睹這些場(chǎng)景,良心不會(huì)痛嗎 評(píng)論 50“金磚為什么火?因?yàn)闆](méi)走西方拉幫結(jié)派的老路” 評(píng)論 35IMF對(duì)華講公道話,美媒酸了 評(píng)論 68美國(guó)發(fā)布首份AI備忘錄,“得防中國(guó)戰(zhàn)略突襲” 評(píng)論 108普京回應(yīng)“朝軍援俄”傳聞 評(píng)論 239最新聞 Hot
-
目睹這些場(chǎng)景,良心不會(huì)痛嗎
-
“金磚為什么火?因?yàn)闆](méi)走西方拉幫結(jié)派的老路”
-
“公用火力發(fā)電比例高于中國(guó),美領(lǐng)導(dǎo)地位?!?/a>
-
他倆定期“秘密對(duì)話”?克宮回應(yīng)
-
以色列襲擊黎巴嫩南部,致3名記者死亡
-
美衛(wèi)星解體恐殃及中國(guó),“很難評(píng)估有多糟糕”
-
怕特朗普攪局,歐盟擬加碼“長(zhǎng)期維持”對(duì)俄制裁
-
“伊朗已下令準(zhǔn)備開戰(zhàn),考慮發(fā)射1000枚導(dǎo)彈回?fù)簟?/a>
-
英國(guó)國(guó)王承認(rèn)了,但也沒(méi)有提賠償
-
美國(guó)發(fā)布首份AI備忘錄,“得防中國(guó)戰(zhàn)略突襲”
-
“英國(guó)軍情五處完全在胡說(shuō)八道”
-
普京回應(yīng)“朝軍援俄”傳聞
-
被批“中國(guó)有支票美國(guó)有清單”,他又畫餅忽悠…
-
又嗆上了:野蠻人也好意思自詡捍衛(wèi)文明…
-
沒(méi)中國(guó)能成嗎?澳大利亞部長(zhǎng)這么說(shuō)
-
特朗普威脅襲擊莫斯科市中心?普京回應(yīng)
-