人工智能又來(lái)玩《馬里奧兄弟》了,這次靠的是“好奇心”

來(lái)源:網(wǎng)絡(luò) 時(shí)間:2017-06-05 14:10:31

人工智能又來(lái)玩《馬里奧兄弟》了,這次靠的是“好奇心”

在游戲中卡殼時(shí),你是會(huì)繼續(xù)反復(fù)地撞南墻,還是轉(zhuǎn)而探索游戲地圖的其它方向?也許是受古裝戲影響,我們可能會(huì)四處尋找密道開(kāi)關(guān)。但當(dāng)前的人工智能可能會(huì)選擇前一種,不達(dá)目的不罷休。

加州大學(xué)伯克利分校最近發(fā)布的論文,則想要開(kāi)闊人工智能的視野,讓它在卡殼時(shí)退一步,轉(zhuǎn)而探索更廣闊的天地,對(duì)視野外的世界產(chǎn)生興趣。論文被 8 月的國(guó)際機(jī)器學(xué)習(xí)大會(huì)接收。

剛剛退役的 AlphaGo,使用蒙特卡羅樹(shù)搜索來(lái)決定下一步,并依據(jù)此前的經(jīng)驗(yàn)確定加權(quán)值,給出相對(duì)的獎(jiǎng)勵(lì)反饋,借此讓機(jī)器具備人工編程沒(méi)有設(shè)計(jì)的技能。這種機(jī)器學(xué)習(xí)方法叫做“增強(qiáng)學(xué)習(xí)”,特點(diǎn)是獎(jiǎng)勵(lì)高效和阻止無(wú)效的行為。

這種方法的缺點(diǎn)則是,需要大量的訓(xùn)練工作,并且不管什么情況都只追求高回報(bào)的行動(dòng),哪怕?lián)p害整體效率也不在乎。如果 AI 不能立即獲得所需的反饋,繼續(xù)行進(jìn)可能會(huì)遇到困難,尤其是在反饋不明顯的電子游戲中。

伯克利研究團(tuán)隊(duì)的方法,是在缺乏獎(jiǎng)勵(lì)、甚至沒(méi)有獎(jiǎng)勵(lì)的情況下,訓(xùn)練人工智能探索環(huán)境。研究人員讓 AI 學(xué)會(huì)了在動(dòng)態(tài)環(huán)境中預(yù)測(cè)行動(dòng)造成的誤差,并將這種探索的動(dòng)力稱為“好奇心”。小寶寶們經(jīng)常就有這種實(shí)驗(yàn)行為,他們受好奇心的指引,在天馬行空的探索中學(xué)習(xí)技能。

為了訓(xùn)練神經(jīng)網(wǎng)絡(luò),研究人員讓人工智能學(xué)習(xí)玩《馬里奧兄弟》和射擊游戲《毀滅戰(zhàn)士》。結(jié)果有好奇心的 AI 沒(méi)有盲目地重復(fù)回報(bào)較高的行動(dòng),對(duì)游戲整體有了更多把握,學(xué)會(huì)了觀察周遭環(huán)境和快速地移動(dòng),而沒(méi)有花很多時(shí)間去撞眼前的墻。

研究人員認(rèn)為,在許多現(xiàn)實(shí)的場(chǎng)景常常缺乏外在的獎(jiǎng)勵(lì)。在這種情況下,好奇心可以作為內(nèi)在的動(dòng)力,讓 AI 探索環(huán)境,學(xué)習(xí)后期才會(huì)有用的技能。這或許可以為機(jī)器人導(dǎo)航任務(wù)帶來(lái)啟發(fā),也能讓機(jī)器人學(xué)會(huì)抓握奇形怪狀的物體。機(jī)器人往往浪費(fèi)大量時(shí)間做無(wú)用功,比如嘗試很多隨機(jī)的手勢(shì)。如果配備了好奇心,機(jī)器人可以很快掌握環(huán)境信息并作出相應(yīng)的動(dòng)作。

讓人工智能具備好奇心已經(jīng)成為該領(lǐng)域的研究熱點(diǎn)。紐約大學(xué)的科學(xué)家 Brenden Lake 接受《麻省理工科技評(píng)論》采訪時(shí)說(shuō),好奇心驅(qū)動(dòng)的學(xué)習(xí)技術(shù)并沒(méi)有關(guān)注得分,但也能在游戲中讓 AI 表現(xiàn)更好,這令人驚訝,“配備與人相似的特征,是開(kāi)發(fā)出具備人類的學(xué)習(xí)思考能力的機(jī)器人的重要一步”,但這項(xiàng)研究里的好奇心仍然不同于孩童身上的好奇心,“AI 只好奇和自己有關(guān)的環(huán)境特點(diǎn)。但人類的好奇心更加寬泛。他們不只關(guān)心周遭的世界?!?/p>

這也不是 AI 第一次玩《馬里奧兄弟》。這款游戲一直是人工智能的試驗(yàn)田。2015 年,德州大學(xué)奧斯汀分校開(kāi)發(fā)的 MarI/O 程序( GitHub 鏈接),用吃一塹長(zhǎng)一智的方法在 34 次嘗試后通關(guān),但它并沒(méi)有預(yù)測(cè)的能力。

也是 2015 年,德國(guó)蒂賓根大學(xué)開(kāi)發(fā)的 Mario A.I. 項(xiàng)目,讓 AI 學(xué)習(xí)人類的語(yǔ)音內(nèi)容,理解英文的攻略,并獲得過(guò)關(guān)的經(jīng)驗(yàn)。更早的年代,2009 ~ 2012 年間,網(wǎng)絡(luò)上還曾舉辦過(guò)馬里奧 AI 大賽,之后被平臺(tái) AI 大賽所取代。

而谷歌(微博)旗下的 DeepMind 在拿下圍棋之后,也要挑戰(zhàn)《星際爭(zhēng)霸》了。過(guò)去七年間一直有類似的嘗試,但 AI 從未贏過(guò)和熟練玩家的比賽。DeepMind 也并未表明何時(shí)會(huì)開(kāi)展人機(jī)對(duì)決,只計(jì)劃在未來(lái)幾個(gè)月內(nèi)發(fā)布相關(guān)的接口。

但人工智能發(fā)展速度如此之快,在電子競(jìng)技上打敗人類的那一天也許并不遙遠(yuǎn)。

繼續(xù)閱讀與本文標(biāo)簽相同的文章

分享至:

你可能感興趣 換一換

分享到微信朋友圈 ×
打開(kāi)微信,
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。