-
星際2職業(yè)高手史上首次被AI擊潰 AlphaStar一戰(zhàn)成名
關鍵字: AlphaStar戰(zhàn)勝人類選手星際2《星際2》,人類首戰(zhàn)告負。
2016年3月DeepMind團隊的AlphaGo擊敗世界圍棋頂級棋手李世石,但在AlphaGo還名不見經(jīng)傳時,它首先是與職業(yè)棋手樊麾較量取得勝利,而如今該團隊設計的新的AlphaStar同樣擊敗了星際2的職業(yè)選手TLO和MaNa。
TLO是一位德國職業(yè)星際2選手,原名Dario Wünsch,1990年7月13日出生。現(xiàn)在效力于職業(yè)游戲戰(zhàn)隊Liquid。根據(jù)官方公布的數(shù)據(jù),TLO在2018 WCS Circuit排名:44。
(德國職業(yè)星際2選手TLO)
MaNa是一位出生于波蘭的職業(yè)星際2選手,原名Grzegorz Komincz,1993年12月14日出生,目前也效力于Liquid。MaNa去年獲得WCS Austin的第二名。根據(jù)官方公布的數(shù)據(jù),他在2018 WCS Circuit排名:13。
(波蘭的職業(yè)星際2選手MaNa)
1月25日,DeepMind 的AI AlphaStar 首次亮相。DeepMind 公布了其錄制的 AI 在《星際爭霸 2》中與2位職業(yè)選手的比賽過程:AlphaStar 分別以5:0的成績戰(zhàn)勝了兩位職業(yè)選手 TLO 和 MaNa 。
最后直播的一場比賽中,DeepMind限制了AlphaStar的游戲視角,并在沒有測試的前提下與MANA進行比賽,讓人類終于贏了一場。
如何打造AlphaStar
對于如何訓練AlphaStar,DeepMind 科學家 Oriol Vinyals、David Silver 表示,首先是模仿學習,團隊從許多選手那里獲得了很多比賽回放資料,并試圖讓 AI 通過觀察一個人所處的環(huán)境,盡可能地模仿某個特定的動作,從而理解星際爭霸的基本知識。這其中所使用到的訓練資料不但包括專業(yè)選手,也包括業(yè)余選手。這是 AlphaStar 成型的第一步。
AlphaStar學會打星際,全靠深度神經(jīng)網(wǎng)絡,這個網(wǎng)絡從原始游戲界面接收數(shù)據(jù) (輸入) ,然后輸出一系列指令,組成游戲中的某一個動作。
再說得具體一些,神經(jīng)網(wǎng)絡結構對星際里的那些單位,應用一個Transformer,再結合一個深度LSTM核心,一個自動回歸策略 (在頭部) ,以及一個集中值基線 (Centralised Value Baseline)。
團隊會使用一個稱為“Alpha League”的方法。在這個方法中,Alpha League 的第一個競爭對手就是從人類數(shù)據(jù)中訓練出來的神經(jīng)網(wǎng)絡,然后進行一次又一次的迭代,產(chǎn)生新的 agent 和分支,用以壯大“Alpha League”。
然后,這些 agent 通過強化學習過程與“Alpha League”中的其他競爭對手進行比賽,以便盡可能有效地擊敗所有這些不同的策略,此外,還可以通過調(diào)整它們的個人學習目標來鼓勵競爭對手朝著特定方式演進,比如說旨在獲得特定的獎勵。
最后,團隊在“Alpha League”中選擇了最不容易被利用的 agent,稱之為“the nash of League”。
AI打星際2意味著什么
早在2003年人類就開始嘗試用AI解決即時戰(zhàn)略(RTS)游戲問題。那時候AI還連圍棋問題還沒有解決,而RTS比圍棋還要復雜。
直到2016年,“阿爾法狗”打敗了李世石。DeepMind在解決圍棋問題后,很快把目光轉向了《星際2》。
與國際象棋或圍棋不同,星際玩家面對的是“不完美信息博弈”。
在玩家做決策之前,圍棋棋盤上所有的信息都能直接看到。而游戲中的“戰(zhàn)爭迷霧”卻讓你無法看到對方的操作、陰影中有哪些單位。
這意味著玩家的規(guī)劃、決策、行動,要一段時間后才能看到結果。這類問題在現(xiàn)實世界中具有重要意義。
為了獲勝,玩家必須在宏觀戰(zhàn)略和微觀操作之間取得平衡。
平衡短期和長期目標并適應意外情況的需要,對脆弱和缺乏靈活性的系統(tǒng)構成了巨大挑戰(zhàn)。
掌握這個問題需要在幾個AI研究挑戰(zhàn)中取得突破,包括:
? 博弈論:星際爭霸沒有單一的最佳策略。因此,AI訓練過程需要不斷探索和拓展戰(zhàn)略知識的前沿。
? 不完美信息:不像象棋或圍棋那樣,棋手什么都看得到,關鍵信息對星際玩家來說是隱藏的,必須通過“偵察”來主動發(fā)現(xiàn)。
? 長期規(guī)劃:像許多現(xiàn)實世界中的問題一樣,因果關系不是立竿見影的。游戲可能需要一個小時才能結束,這意味著游戲早期采取的行動可能在很長一段時間內(nèi)都不會有回報。
? 實時:不同于傳統(tǒng)的棋類游戲,星際爭霸玩家必須隨著游戲時間的推移不斷地執(zhí)行動作。
? 更大的操作空間:必須實時控制數(shù)百個不同的單元和建筑物,從而形成可能的組合空間。此外,操作是分層的,可以修改和擴充。
為了進一步探索這些問題,DeepMind與暴雪2017年合作發(fā)布了一套名為PySC2的開源工具,在此基礎上,結合工程和算法突破,才有了現(xiàn)在的AlphaStar。
除了DeepMind以外,其他公司和高校去年也積極備戰(zhàn):
? 4月,南京大學的俞揚團隊,研究了《星際2》的分層強化學習方法,在對戰(zhàn)最高等級的無作弊電腦情況下,勝率超過93%。
? 9月,騰訊AI Lab發(fā)布論文稱,他們構建的AI首次在完整的蟲族VS蟲族比賽中擊敗了星際2的內(nèi)置機器人Bot。
? 11月,加州大學伯克利分校在星際2中使用了一種新型模塊化AI架構,用蟲族對抗電腦難度5級的蟲族時,分別達到 94%(有戰(zhàn)爭迷霧)和 87%(無戰(zhàn)爭迷霧)的勝率。
DeepMind CEO哈薩比斯在賽后說,雖然星際爭霸“只是”一個非常復雜的游戲,但他對AlphaStar背后的技術更感興趣。其中包含的超長序列的預測,未來可以用在天氣預測和氣候建模中。
內(nèi)容根據(jù)微信公眾號量子位、鈦媒體APP、36氪等資料綜合整理
- 原標題:1-10落敗,5分鐘崩盤!星際2職業(yè)高手史上首次被AI擊潰,AlphaStar一戰(zhàn)成名
- 請支持獨立網(wǎng)站,轉發(fā)請注明本文鏈接:
- 責任編輯:程小康
- 最后更新: 2019-01-25 14:48:29
-
為什么我不看好社區(qū)團購
2019-01-25 10:31 -
小米首秀雙折疊屏手機:柔宇高管語出驚人
2019-01-25 09:20 手機 -
動車與地鐵“混血” 上線運營
2019-01-25 07:24 高鐵世紀 -
華為發(fā)布5G多模終端芯片和商用終端
2019-01-24 13:03 -
華為發(fā)布業(yè)界首款5G基站核心芯片 算力強約2.5倍
2019-01-24 12:09 華為 -
差點友盡!微信出bug消息發(fā)不出甚至有人被刪好友
2019-01-24 12:01 大公司 -
歐洲航天局:剛簽合同,2025年前登月
2019-01-23 08:19 航空航天 -
韓國兩大半導體巨頭去年第四季度業(yè)績慘淡
2019-01-22 18:05 -
難道這就是德國制造 柏林勃蘭登堡機場十幾年“爛尾”
2019-01-22 16:59 -
像素大戰(zhàn)!雷軍開懟榮耀:底大一級壓死人
2019-01-22 16:51 手機 -
從論證到首飛僅用一年半,飛龍-1空中首秀燃爆了!
2019-01-22 09:51 航空安全 -
英媒:深圳、上海將比紐約提前20年實現(xiàn)公交系統(tǒng)全電動化
2019-01-22 09:22 -
我國自主研發(fā)磁性基板打破國外技術壟斷
2019-01-21 19:52 科技前沿 -
外媒:iPhone XR、XS銷量史上第二差,庫存激增將影響出貨量至年中
2019-01-21 16:05 手機 -
多次數(shù)據(jù)封鎖后 美為何要借中國中繼星?
2019-01-21 13:56 科技前沿 -
任正非首談未進"改革開放杰出貢獻人物"名單:主動放棄
2019-01-21 09:57 互聯(lián)網(wǎng)大佬 -
東芝宣布實現(xiàn)氧化亞銅太陽能電池透明化
2019-01-21 06:39 -
同款佩奇走紅 鼓風機價格翻3倍
2019-01-20 08:19 中國雷人秀 -
工信部副部長:中國加快5G商用已具堅實基礎
2019-01-19 22:52 科技前沿 -
過去1個月 美航天局與中方討論這事
2019-01-19 17:00 航空航天
相關推薦 -
“中國稀土出口審批速度慢,西方急啊” 評論 17“中美談判后,各國對美更硬氣了” 評論 93星辰大海第二站,天問二號為何選它? 評論 60印度人把抵制矛頭對準了這兩國 評論 247特朗普準備賣了“美國之音”總部大樓 評論 194最新聞 Hot
-
“中國稀土出口審批速度慢,西方急啊”
-
英國也盯上了美國“流亡”科研人才
-
美國發(fā)生火車撞人事故:2人死亡,至少1人失蹤
-
“蘋果給了印度希望,結果中美談成了……”
-
“中美談判后,各國對美更硬氣了”
-
葡萄牙總理小勝,極右翼抬頭
-
拜登還能活多久?美專家預測
-
“飛車黨”緊追小女孩將其嚇哭?當?shù)鼐酵▓螅簝擅踔猩J錯道歉
-
數(shù)學家贏下羅馬尼亞大選,曾兩次獲得國際奧數(shù)滿分
-
河中現(xiàn)大量死魚,懷化市委書記現(xiàn)場察看
-
特朗普:將與普京和澤連斯基通話
-
特朗普再次喊話:趕緊降息
-
阿根廷農(nóng)業(yè)重鎮(zhèn)遭嚴重洪水襲擊,大豆收獲被推遲
-
魯比奧:梵蒂岡或成俄烏會談地
-
搞真人秀搶美國公民資格,真人版《饑餓游戲》要來了?
-
捐贈儀式舉行,這方金印證實西晉與高句麗統(tǒng)屬關系
-