vivo公布AI研究新進(jìn)展:教會(huì)手機(jī)打《王者榮耀》
只有一顆做手機(jī)的心,肯定是做不好手機(jī)的。

上周五凌晨,一場(chǎng)史詩級(jí)人機(jī)大戰(zhàn)“悄然開場(chǎng)”,代表機(jī)器參賽的是Google旗下AI大公司DeepMind開發(fā)的全新AI程序AlphaStar,另外一方是2018 WCS Circuit排名13、神族最強(qiáng)10人之一的人類選手MaNa。
結(jié)果也正如2年多前的圍棋AI AlphaGo(同樣由DeepMind開發(fā))一般,AlphaStar以10:1的戰(zhàn)績,“完虐”人類職業(yè)高手。
要知道,“星際2”這款游戲比圍棋又復(fù)雜上了許多:例如動(dòng)作的種類,圍棋只有361個(gè)下棋位置,星際2算上各種技能和走位控制,即便一個(gè)84x84分辨率的小屏幕,也有一億多種可能的操作。同時(shí),在玩“星際2”的過程中,玩家并不能看到整個(gè)戰(zhàn)場(chǎng)的信息,你甚至還要猜測(cè)、估算對(duì)方的行動(dòng),來進(jìn)行你自己的規(guī)劃和決策。
這么難都能打贏人類,AI這幾年來取得的進(jìn)展“可見一斑”。
事實(shí)上,因?yàn)槿祟愐恢睂?duì)AI不完全掌握,再加上AI技術(shù)和應(yīng)用探索的過程中往往需要大量的數(shù)據(jù),可以隨意試錯(cuò)、擁有大量人類數(shù)據(jù)的電子游戲,一直被視為人工智能最好的實(shí)驗(yàn)平臺(tái)之一。因?yàn)橛螒虮旧砭褪钦J(rèn)為創(chuàng)造的,用以幫助人來習(xí)得某個(gè)技能或者測(cè)試技能水平的工具。
在某些特定的人工智能方向,如自動(dòng)駕駛,人們甚至還會(huì)專門認(rèn)為創(chuàng)造一個(gè)類似于電子游戲的虛擬世界,用來作為訓(xùn)練人工智能的環(huán)境。
除了上文所提到的DeepMind之外,很多國內(nèi)公司實(shí)際上也在進(jìn)行著在游戲環(huán)境中訓(xùn)練人工智能的嘗試,其中就包括了vivo,他們所瞄準(zhǔn)的正是國內(nèi)最多人玩的手游之一:《王者榮耀》。
訓(xùn)練AI打《王者榮耀》這件事
代表vivo向《王者榮耀》發(fā)起AI沖擊的,是去年7月成立的“vivo AI Lab”,后者的建立是vivo在2018年年初的vivo戰(zhàn)略發(fā)布會(huì)上就已經(jīng)做的決定。

本次“vivo AI Lab”所使用的強(qiáng)化學(xué)習(xí)架構(gòu)
在本次對(duì)《王者榮耀》挑戰(zhàn)的背后,“vivo AI Lab”專門提出并使用了一種全新的分層強(qiáng)化學(xué)習(xí)模型。這種神經(jīng)網(wǎng)絡(luò)模型既能夠通過模仿人類來制定宏觀策略,同時(shí)還能根據(jù)強(qiáng)化學(xué)習(xí)來保證微觀操作。尤其適應(yīng)即時(shí)戰(zhàn)略游戲(RTS)對(duì)于操作的需求。
就《王者榮耀》而言,關(guān)鍵性的大局觀包括單元“去哪兒”、“應(yīng)該何時(shí)去支援隊(duì)友”、“隊(duì)友應(yīng)該何時(shí)一起參加團(tuán)戰(zhàn)”等。重要的精細(xì)化操作則包括“何時(shí)閃現(xiàn)”、“何時(shí)交出大招”、“多人團(tuán)戰(zhàn)中應(yīng)該如何精細(xì)走位”、“團(tuán)戰(zhàn)中應(yīng)該如何釋放技能”等。

這兩種操作需求實(shí)際上相差很大,大局觀層面其實(shí)很難量化和計(jì)算,所以主要的是先參考人類的數(shù)據(jù),進(jìn)行模仿學(xué)習(xí)和專家引導(dǎo)。在精細(xì)化操作的時(shí)候,“vivo AI Lab”直接使用了一種被叫做“多智能體”的強(qiáng)化學(xué)習(xí)方法。你可以把它看做成百上千個(gè)機(jī)器人在虛擬團(tuán)戰(zhàn)走位、技能釋放等操作,其中只有表現(xiàn)最好的能夠留下來。通過不斷的對(duì)壘,機(jī)器自然而然就學(xué)會(huì)了最優(yōu)的操作方式。

最終訓(xùn)練出來的結(jié)果:觀察到電腦開大,馬上閃現(xiàn)然后反身開大,一氣呵成。(圖中方框?yàn)閳D像識(shí)別對(duì)象框)
根據(jù)“vivo AI Lab”官方公布的成果,經(jīng)過這一系列神經(jīng)網(wǎng)絡(luò)訓(xùn)練出來的模型,1V1模式下能以100%的勝率擊敗游戲中的內(nèi)置AI,同時(shí)能夠在5V5模式下以AI戰(zhàn)隊(duì)的形式表現(xiàn)出較好的協(xié)同性能。
除了游戲AI外,vivo還“做”了更多
在實(shí)驗(yàn)全新深度學(xué)習(xí)模型的同時(shí),“vivo AI Lab”還更具挑戰(zhàn)性地選擇了一條更難的路徑——不使用游戲的API接口,而是選擇直接從圖像監(jiān)測(cè)并獲取游戲中的各種特征數(shù)據(jù)。
之前不少公司和機(jī)構(gòu)都曾在電子游戲上發(fā)起人工智能挑戰(zhàn),基本都采用了游戲的API接口。人工智能無需經(jīng)過圖像分析等手段就可以直接獲知游戲中各個(gè)單位、環(huán)境的數(shù)據(jù)。

“AlphaStar”獲取的游戲數(shù)據(jù),明顯非常簡潔
以游戲表現(xiàn)上最出色的DeepMind的“AlphaStar”為例,它并沒有直接從圖像中獲取單位的信息,而是從游戲引擎里面讀取特征信息,這些圖像直接標(biāo)記了哪里是兵或者工廠。

“vivo AI Lab”專門為采集游戲數(shù)據(jù)所打造的一套深度學(xué)習(xí)網(wǎng)絡(luò)
“vivo AI Lab”則選擇了用另外一套深度學(xué)習(xí)網(wǎng)絡(luò)來捕捉《王者榮耀》中5個(gè)英雄的特征,具體的來說,就是把5個(gè)英雄對(duì)應(yīng)的大地圖和小地圖數(shù)據(jù),通過卷積神經(jīng)網(wǎng)絡(luò)提取信息,結(jié)合多目標(biāo)檢測(cè)提取的特征向量,再輸入到上文所提到的分層神經(jīng)網(wǎng)絡(luò)當(dāng)中。然后各個(gè)英雄根據(jù)自身狀態(tài)環(huán)境,決策出不同的動(dòng)作,實(shí)現(xiàn)在各自情況下的對(duì)應(yīng)操作。

雖然這個(gè)過程不起眼,但實(shí)際上卻可能對(duì)人工智能的表現(xiàn)起到很大影響。畢竟實(shí)際用戶都是通過手機(jī)顯示的圖像來獲取信息的,假如人工智能都從API接口來獲取信息,你又怎么能保證這些信息的層級(jí)和精準(zhǔn)度都是跟人類從圖像中獲取的一致?
之所以vivo這次額外花力氣填補(bǔ)這一流程,正是想讓人工智能能夠完整模擬人類從看到屏幕上圖像,到實(shí)際操作的全過程,讓人工智能的運(yùn)轉(zhuǎn)環(huán)境條件更接近普通用戶。

分布式神經(jīng)網(wǎng)絡(luò)訓(xùn)練環(huán)境
為了實(shí)現(xiàn)同時(shí)對(duì)多個(gè)英雄數(shù)據(jù)進(jìn)行采集,并且提高整個(gè)《王者榮耀》人工智能模型的采樣效率,樣本多樣性和訓(xùn)練速度,“vivo AI Lab”還搭建了一整個(gè)“分布式強(qiáng)化學(xué)習(xí)環(huán)境”:手機(jī)負(fù)責(zé)游戲的運(yùn)行、動(dòng)作執(zhí)行和數(shù)據(jù)采集;電腦負(fù)責(zé)連接手機(jī)和服務(wù)器,進(jìn)行強(qiáng)化學(xué)習(xí)算法選擇、動(dòng)作決策單元的運(yùn)轉(zhuǎn);云端的GPU服務(wù)器集群負(fù)責(zé)整個(gè)神經(jīng)網(wǎng)絡(luò)的運(yùn)行和存儲(chǔ)。
而在這個(gè)環(huán)境中,“vivo AI Lab”還更具普適性地直接使用了全開源的gRPC技術(shù),這種技術(shù)是HTTP 2.0時(shí)代的基礎(chǔ)底層數(shù)據(jù)框架。這也讓整個(gè)“分布式強(qiáng)化學(xué)習(xí)環(huán)境”具有極大的網(wǎng)絡(luò)化潛力。
關(guān)于這次《王者榮耀》的人工智能嘗試,“vivo AI Lab”還以論文的形式公開刊發(fā)了出來,有興趣可以點(diǎn)擊網(wǎng)址查看。
超越成績的一次嘗試
手機(jī)廠商來做游戲的AI,乍一聽真的會(huì)讓人摸不著頭腦,畢竟最終訓(xùn)練出來的AI也不太可能被應(yīng)用到游戲或是真實(shí)當(dāng)中。
但從“vivo AI Lab”此番挑戰(zhàn)的細(xì)節(jié)來看,你也很難將其簡單地歸為“做游戲AI”。以選擇不使用游戲的API接口、轉(zhuǎn)而從游戲界面的圖像獲取數(shù)據(jù)為例,這不僅僅是一個(gè)技術(shù)上的挑戰(zhàn),更是vivo著眼于此次AI嘗試未來的適用性。
因?yàn)檎麄€(gè)深度學(xué)習(xí)過程中的數(shù)據(jù)都是從手機(jī)終端直接采樣而得,除了其他玩法類似、基礎(chǔ)操作需求相近、圖像識(shí)別相近的游戲外,vivo還能利用與本次嘗試相同的架構(gòu)(手機(jī)圖像識(shí)別+特定深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)+深度學(xué)習(xí)網(wǎng)絡(luò)化環(huán)境),對(duì)手機(jī)中的各種場(chǎng)景進(jìn)行學(xué)習(xí)歸納。最終讓vivo手機(jī)從方方面更懂你。
其次是采用gRPC技術(shù)來構(gòu)建整個(gè)人工智能學(xué)習(xí)環(huán)境的數(shù)據(jù)傳輸,要知道在當(dāng)下的人工智能發(fā)展過程中,“如何采集到足夠的樣本數(shù)據(jù)”和“如何讓盡可能多的用戶用上花大力氣訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò)”,仍是關(guān)鍵性的難點(diǎn)所在。想要解決他們,“網(wǎng)絡(luò)化”是唯一可行的路徑。

所以整體看下來,與其說是vivo在做一次游戲AI的嘗試,倒不如說是一次面向未來手機(jī)人工智能發(fā)展的嘗試。
這種前瞻且大膽的嘗試,也是vivo一直所堅(jiān)持的,早在去年3月,vivo就在X21上首次發(fā)布了“Jovi”人工智能助手,能夠在屏幕中直接識(shí)別人物、快遞、景點(diǎn)地址、網(wǎng)址等關(guān)鍵信息;負(fù)一屏的“智慧場(chǎng)景” ,更能有效地將通勤時(shí)間、票務(wù)酒店預(yù)訂、步數(shù)、天氣等信息進(jìn)行整合展示。去年9月,vivo發(fā)布的全新IoT戰(zhàn)略“Jovi物聯(lián)”,更讓Jovi能夠方便地適配一系列智能家居產(chǎn)品,讓Jovi成為“把人和數(shù)字世界聯(lián)系在一起”的控制核心。
因?yàn)樵谑澜绮粩鄶?shù)字化的當(dāng)下和未來,人的認(rèn)知愈發(fā)難以跟上數(shù)據(jù)膨脹的速度,借助AI來提升人類的能力將會(huì)是一個(gè)重要的解決方案。而vivo,顯然想要幫助自己的用戶首先成為這一類人。
注:本文觀點(diǎn)僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),本網(wǎng)站亦不對(duì)其真實(shí)性負(fù)責(zé)?!?/p>
關(guān)注我們


