谷歌AI為達(dá)目的，把自己的身體改造成了這樣……

來源：量子位（QbitAI）強化學(xué)習(xí)AI打游戲，早就不稀奇了。智能體在虛擬世界里死去活來，慢慢了解怎樣的策略能讓自己活得更長，得到更多的獎勵。但AI可能不知道，游戲打不好，也可能是智能體的身體結(jié)構(gòu)有問題。如果可以一邊學(xué)策略，一邊改身材，或許能成就更偉大的強化學(xué)習(xí)AI。于是，來自谷歌大腦的David Ha，為自家AI制定了雙管齊下的特殊訓(xùn)練計劃：智能", "pubDate": "2018-10-15T15:28:13", "upDate": "2018-10-1 發(fā)布時間：2018-10-15瀏覽：3830次

谷歌AI為達(dá)目的，把自己的身體改造成了這樣……△ 今天的主角，可能是AI界的橡膠果實了　　文/強化栗　　來源：量子位（QbitAI）　　強化學(xué)習(xí)AI打游戲，早就不稀奇了?！　≈悄荏w在虛擬世界里死去活來，慢慢了解怎樣的策略能讓自己活得更長，得到更多的獎勵。　　但AI可能不知道，游戲打不好，也可能是智能體的身體結(jié)構(gòu)有問題。　　如果可以一邊學(xué)策略，一邊改身材，或許能成就更偉大的強化學(xué)習(xí)AI。　　于是，來自谷歌大腦的DavidHa，為自家AI制定了雙管齊下的特殊訓(xùn)練計劃：　　智能體不斷調(diào)整自己的身材，比如腿的長度...

△ 今天的主角，可能是AI界的橡膠果實了

　　文/強化栗

　　來源：量子位（QbitAI）

　　強化學(xué)習(xí)AI打游戲，早就不稀奇了。

　　智能體在虛擬世界里死去活來，慢慢了解怎樣的策略能讓自己活得更長，得到更多的獎勵。

　　但AI可能不知道，游戲打不好，也可能是智能體的身體結(jié)構(gòu)有問題。

　　如果可以一邊學(xué)策略，一邊改身材，或許能成就更偉大的強化學(xué)習(xí)AI。

　　于是，來自谷歌大腦的David Ha，為自家AI制定了雙管齊下的特殊訓(xùn)練計劃：

　　智能體不斷調(diào)整自己的身材，比如腿的長度，找到最適合當(dāng)前任務(wù)的結(jié)構(gòu)；同時進(jìn)行策略訓(xùn)練。

△身材修煉前 (左) vs 身材修煉后 (右)：速度明顯不一樣

　　你看，智能體把腿跑細(xì)了，速度也快了許多。

　　除此之外，還可以培養(yǎng)越野能力。

　　在溝壑縱橫的旅途中，原始身材的智能體時常翻車。

△ 改造前，翻車日常

　　但煉成優(yōu)雅身型之后，翻車事件幾乎不存在了，策略訓(xùn)練時間也縮減到原來的30%。

　　身材科學(xué)了，策略也就好學(xué)了。

　　那么，是怎樣的婀娜身段，能在降低時間成本的同時提升性能？再看一會兒你就知道了。

　　秀外慧中，有何密方？

　　從前的智能體，形狀結(jié)構(gòu)大都是固定的，只關(guān)注策略訓(xùn)練?？墒牵到y(tǒng)預(yù)先設(shè)定的身材，通常都不是 (針對特定任務(wù)) 最理想的結(jié)構(gòu)。

　　因此，如同上文所說，策略要學(xué)，身材優(yōu)化也要一起學(xué)。

　　這樣一來，只用策略網(wǎng)絡(luò)的權(quán)重參數(shù) (Weight Parameters) 來訓(xùn)練就不夠了，環(huán)境也要參數(shù)化。

　　身體結(jié)構(gòu)特征，比如大腿或小腿的長度、寬度、質(zhì)量、朝向等等，都是這環(huán)境的組成部分。

　　這里的權(quán)重參數(shù)w，把策略網(wǎng)絡(luò)參數(shù)和環(huán)境參數(shù)向量結(jié)合起來，便可以同時培養(yǎng)身材和技巧。

　　隨著權(quán)重w的不斷更新，智能體會越來越強。

　　身材改造有沒有用？只要和僅學(xué)策略、不改結(jié)構(gòu)的智能體比一場，如果獎勵分有提升，就表示AI找到了更適合這個環(huán)境的身型。

　　注意，為了修煉AI的冒險精神，研究人員把高難度動作的獎勵擴(kuò)大，引導(dǎo)智能體挑戰(zhàn)自我。

　　身材改造，療效甚好

　　比賽場地分兩大塊，一是基于Bullet物理引擎的機(jī)器人模擬庫Roboschool，二是基于Box2D物理引擎的OpenAI Gym。

　　兩類環(huán)境都經(jīng)過了參數(shù)化，AI可以學(xué)著調(diào)整里面的參數(shù)。

　　解鎖高分姿勢

　　首先，來到足球場 (RoboschoolAnt-v1) ，這里的智能體Ant是只四腳怪，每條腿分三截，由兩個關(guān)節(jié)控制。腿是留給AI調(diào)節(jié)的，球狀身軀是不可調(diào)節(jié)的。

△ 三截腿，最內(nèi)側(cè)的一截比較不明顯

　　任務(wù)很簡單，跑得越遠(yuǎn)越好。

　　經(jīng)過訓(xùn)練 (上圖右) ，智能體最明顯的變化是腿部更加細(xì)長了，且四條腿長短不一，打破了對稱性。身材改變之后，步頻也加快了許多，長腿怪更早穿過了棕色跑道。

　　看一下獎勵分：在100次測試?yán)铮冀Y(jié)構(gòu)的得分是3447 ± 251，而新結(jié)構(gòu)的得分為5789 ± 479，療效顯著。

△ 左為原始，右為身材訓(xùn)練后 (紅線代表激光雷達(dá))

　　然后，進(jìn)入綠地場景 (BipedalWalker-v2，基于Box2D，屬于Gym) 。這里的智能體是兩足的，在“激光雷達(dá)”的指引下往前走。

　　任務(wù)是在規(guī)定時間內(nèi)，穿越一片和平的地形 (這是簡單版，充滿障礙物的復(fù)雜版見下文) 。用分?jǐn)?shù)來看，100次Rollout超過300分就算任務(wù)成功。

　　原始身材獲得了347分，優(yōu)化后的身材則有359分。

　　兩邊任務(wù)都成功了，但改造過結(jié)構(gòu)的智能體除了瘦腿之外，兩腿四截的長度都有變化，給了AI彈跳前進(jìn)的新姿勢。動作看上去更加輕松，分?jǐn)?shù)也高過從前。

　　好身材，能加速策略學(xué)習(xí)

　　上文綠地的硬核版 (BipedalWalkerHardcore-v2) 在此：路途崎嶇，千山萬壑，一不小心就會墮入深淵。

　　David Ha要在此證明，強健的身材能為智能體的策略學(xué)習(xí)帶來加成，而不只是“兩門功課同步學(xué)”那樣粗暴的合體。

　　與之前的全面瘦腿不同，這次智能體的后腿，進(jìn)化出了厚實的小腿，且長度和溝壑的寬度相近。

△ 紅線代表激光雷達(dá)

　　這樣一來，在跨越鴻溝的時候，后腿就能架起一座橋，保護(hù)智能體平穩(wěn)通過，不翻車。

　　與此同時，前腿承擔(dān)了“危險探測器”的責(zé)任，偵查前方有怎樣的障礙物，作為“激光雷達(dá)”的輔助，可以給后腿的下一步動作提供依據(jù)。

　　重點是，在這副新身材誕生的過程中，AI已學(xué)會了通關(guān)策略，耗時僅12小時。對比一下，不做身材優(yōu)化的原始訓(xùn)練方法，用時長達(dá)40小時 (前饋策略網(wǎng)絡(luò)，96個GPU) 。

　　這就是說，優(yōu)雅的結(jié)構(gòu)加速了智能體的學(xué)習(xí)過程。

△ 加入身材優(yōu)化(橙色) ，訓(xùn)練效率明顯提升，約1000代達(dá)成目標(biāo)

　　腦洞，并非從天而降

　　第一，David Ha如何能預(yù)感到，改善智能體的結(jié)構(gòu)就可以提升訓(xùn)練效率？

　　他說，是從大自然得到了啟發(fā)。

△ 錯誤示范

　　有些動物在腦死亡之后，依然可以蹦跳，依然可以游泳。

　　也就是說，生物體的許多行為，并不依賴大腦。

　　有種叫做體驗認(rèn)知 (Embodied Cognition) 的理論認(rèn)為，認(rèn)知的許多特征，都不是大腦獨自決定：生物體的方方面面，如運動系統(tǒng)、感知系統(tǒng)、生物體與環(huán)境的相互作用等等，都會對認(rèn)知產(chǎn)生影響。

　　比如，運動員在長期訓(xùn)練的過程中，除了身體得到鍛煉，某些特定的心理素質(zhì)也會隨之生成。

　　David Ha覺得，這樣的現(xiàn)象在AI身上也有可能發(fā)生：對軀體進(jìn)行訓(xùn)練，從而影響認(rèn)知。

　　第二，通過訓(xùn)練來改變智能體結(jié)構(gòu)的想法，也是來源于自然。

△ 火烈鳥本不是紅色，吃了小魚小蝦之類的食物，羽毛才變紅

火烈鳥本不是紅色，吃了小魚小蝦之類的食物，羽毛才變紅

　　中學(xué)生物告訴我們，表現(xiàn)型是基因型與環(huán)境共同作用的結(jié)果。

　　那么，各式各樣的虛擬場景，也會讓更適應(yīng)環(huán)境的智能體結(jié)構(gòu)脫穎而出。這樣，AI便可以借助環(huán)境的選擇，煉成更加精湛的技能。

　　緣，妙不可言。

新《電商法》將至，朋友圈里的代購們?nèi)绾巍敖^地求生” 80后網(wǎng)警受賄2千萬:查獲源代碼交他人開賭場獲利2億

japanesexxxx日本妇伦, 17ccgcg吃瓜网黑料爆料蘑菇, 日本一卡二卡3卡四卡无卡国色天香, 一二三四五免费观看完整版高清视频,中国激情久久区免费,2012中文字幕第8,国产清纯美女高潮出白浆直播,金服高潮,久久精品无码一区二区WWW

十年技術(shù)深耕細(xì)作

谷歌AI為達(dá)目的，把自己的身體改造成了這樣……

japanesexxxx日本妇伦, 17ccgcg吃瓜网黑料爆料蘑菇, 日本一卡二卡3卡四卡无卡国色天香, 一二三四五免费观看完整版高清视频,中国激情久久区免费,2012中文字幕第8,国产清纯美女高潮出白浆直播,金服高潮,久久精品无码一区二区WWW

十年技術(shù)深耕細(xì)作

谷歌AI為達(dá)目的，把自己的身體改造成了這樣……

谷歌AI為達(dá)目的，把自己的身體改造成了這樣……