japanesexxxx日本妇伦, 17ccgcg吃瓜网黑料爆料蘑菇, 日本一卡二卡3卡四卡无卡国色天香, 一二三四五免费观看完整版高清视频,中国激情久久区免费,2012中文字幕第8,国产清纯美女高潮出白浆直播,金服高潮,久久精品无码一区二区WWW

十年技術(shù)深耕細(xì)作

為您提供各行業(yè)互聯(lián)網(wǎng)私人定制開發(fā)解決方案

免費(fèi)咨詢熱線15890197308
新聞資訊
把握先機(jī)贏得挑戰(zhàn)與世界同步
首頁 新聞中心 網(wǎng)絡(luò)安全

谷歌AI為達(dá)目的,把自己的身體改造成了這樣……

來源:量子位(QbitAI)強(qiáng)化學(xué)習(xí)AI打游戲,早就不稀奇了。智能體在虛擬世界里死去活來,慢慢了解怎樣的策略能讓自己活得更長(zhǎng),得到更多的獎(jiǎng)勵(lì)。但AI可能不知道,游戲打不好,也可能是智能體的身體結(jié)構(gòu)有問題。如果可以一邊學(xué)策略,一邊改身材,或許能成就更偉大的強(qiáng)化學(xué)習(xí)AI。于是,來自谷歌大腦的David Ha,為自家AI制定了雙管齊下的特殊訓(xùn)練計(jì)劃:智能", "pubDate": "2018-10-15T15:28:13", "upDate": "2018-10-1 發(fā)布時(shí)間:2018-10-15瀏覽:3412次

谷歌AI為達(dá)目的,把自己的身體改造成了這樣……△ 今天的主角,可能是AI界的橡膠果實(shí)了  文/強(qiáng)化栗  來源:量子位(QbitAI)  強(qiáng)化學(xué)習(xí)AI打游戲,早就不稀奇了?! ≈悄荏w在虛擬世界里死去活來,慢慢了解怎樣的策略能讓自己活得更長(zhǎng),得到更多的獎(jiǎng)勵(lì)?! 〉獳I可能不知道,游戲打不好,也可能是智能體的身體結(jié)構(gòu)有問題。  如果可以一邊學(xué)策略,一邊改身材,或許能成就更偉大的強(qiáng)化學(xué)習(xí)AI?! ∮谑?,來自谷歌大腦的DavidHa,為自家AI制定了雙管齊下的特殊訓(xùn)練計(jì)劃:  智能體不斷調(diào)整自己的身材,比如腿的長(zhǎng)度...

谷歌AI為達(dá)目的,把自己的身體改造成了這樣……

△ 今天的主角,可能是AI界的橡膠果實(shí)了

△ 今天的主角,可能是AI界的橡膠果實(shí)了

  文/強(qiáng)化栗

  來源:量子位(QbitAI)

  強(qiáng)化學(xué)習(xí)AI打游戲,早就不稀奇了。

  智能體在虛擬世界里死去活來,慢慢了解怎樣的策略能讓自己活得更長(zhǎng),得到更多的獎(jiǎng)勵(lì)。

  但AI可能不知道,游戲打不好,也可能是智能體的身體結(jié)構(gòu)有問題。

  如果可以一邊學(xué)策略,一邊改身材,或許能成就更偉大的強(qiáng)化學(xué)習(xí)AI。

  于是,來自谷歌大腦的David Ha,為自家AI制定了雙管齊下的特殊訓(xùn)練計(jì)劃:

  智能體不斷調(diào)整自己的身材,比如腿的長(zhǎng)度,找到最適合當(dāng)前任務(wù)的結(jié)構(gòu);同時(shí)進(jìn)行策略訓(xùn)練。

△身材修煉前 (左) vs 身材修煉后 (右):速度明顯不一樣

△身材修煉前 (左) vs 身材修煉后 (右):速度明顯不一樣

  你看,智能體把腿跑細(xì)了,速度也快了許多。

  除此之外,還可以培養(yǎng)越野能力。

  在溝壑縱橫的旅途中,原始身材的智能體時(shí)常翻車。

△ 改造前,翻車日常

△ 改造前,翻車日常

  但煉成優(yōu)雅身型之后,翻車事件幾乎不存在了,策略訓(xùn)練時(shí)間也縮減到原來的30%。

  身材科學(xué)了,策略也就好學(xué)了。

  那么,是怎樣的婀娜身段,能在降低時(shí)間成本的同時(shí)提升性能?再看一會(huì)兒你就知道了。

  秀外慧中,有何密方?

  從前的智能體,形狀結(jié)構(gòu)大都是固定的,只關(guān)注策略訓(xùn)練??墒?,系統(tǒng)預(yù)先設(shè)定的身材,通常都不是 (針對(duì)特定任務(wù)) 最理想的結(jié)構(gòu)。

  因此,如同上文所說,策略要學(xué),身材優(yōu)化也要一起學(xué)。

  這樣一來,只用策略網(wǎng)絡(luò)的權(quán)重參數(shù) (Weight Parameters) 來訓(xùn)練就不夠了,環(huán)境也要參數(shù)化。

  身體結(jié)構(gòu)特征,比如大腿或小腿的長(zhǎng)度、寬度、質(zhì)量、朝向等等,都是這環(huán)境的組成部分。

  這里的權(quán)重參數(shù)w,把策略網(wǎng)絡(luò)參數(shù)和環(huán)境參數(shù)向量結(jié)合起來,便可以同時(shí)培養(yǎng)身材和技巧。

  隨著權(quán)重w的不斷更新,智能體會(huì)越來越強(qiáng)。

  身材改造有沒有用?只要和僅學(xué)策略、不改結(jié)構(gòu)的智能體比一場(chǎng),如果獎(jiǎng)勵(lì)分有提升,就表示AI找到了更適合這個(gè)環(huán)境的身型。

  注意,為了修煉AI的冒險(xiǎn)精神,研究人員把高難度動(dòng)作的獎(jiǎng)勵(lì)擴(kuò)大,引導(dǎo)智能體挑戰(zhàn)自我。

  身材改造,療效甚好

  比賽場(chǎng)地分兩大塊,一是基于Bullet物理引擎的機(jī)器人模擬庫Roboschool,二是基于Box2D物理引擎的OpenAI Gym。

  兩類環(huán)境都經(jīng)過了參數(shù)化,AI可以學(xué)著調(diào)整里面的參數(shù)。

  解鎖高分姿勢(shì)

  首先,來到足球場(chǎng) (RoboschoolAnt-v1) ,這里的智能體Ant是只四腳怪,每條腿分三截,由兩個(gè)關(guān)節(jié)控制。腿是留給AI調(diào)節(jié)的,球狀身軀是不可調(diào)節(jié)的。

△ 三截腿,最內(nèi)側(cè)的一截比較不明顯

△ 三截腿,最內(nèi)側(cè)的一截比較不明顯

  任務(wù)很簡(jiǎn)單,跑得越遠(yuǎn)越好。

  經(jīng)過訓(xùn)練 (上圖右) ,智能體最明顯的變化是腿部更加細(xì)長(zhǎng)了,且四條腿長(zhǎng)短不一,打破了對(duì)稱性。身材改變之后,步頻也加快了許多,長(zhǎng)腿怪更早穿過了棕色跑道。

  看一下獎(jiǎng)勵(lì)分:在100次測(cè)試?yán)?,原始結(jié)構(gòu)的得分是3447 ± 251,而新結(jié)構(gòu)的得分為5789 ± 479,療效顯著。

△ 左為原始,右為身材訓(xùn)練后 (紅線代表激光雷達(dá))

△ 左為原始,右為身材訓(xùn)練后 (紅線代表激光雷達(dá))

  然后,進(jìn)入綠地場(chǎng)景 (BipedalWalker-v2,基于Box2D,屬于Gym) 。這里的智能體是兩足的,在“激光雷達(dá)”的指引下往前走。

  任務(wù)是在規(guī)定時(shí)間內(nèi),穿越一片和平的地形 (這是簡(jiǎn)單版,充滿障礙物的復(fù)雜版見下文) 。用分?jǐn)?shù)來看,100次Rollout超過300分就算任務(wù)成功。

  原始身材獲得了347分,優(yōu)化后的身材則有359分。

  兩邊任務(wù)都成功了,但改造過結(jié)構(gòu)的智能體除了瘦腿之外,兩腿四截的長(zhǎng)度都有變化,給了AI彈跳前進(jìn)的新姿勢(shì)。動(dòng)作看上去更加輕松,分?jǐn)?shù)也高過從前。

  好身材,能加速策略學(xué)習(xí)

  上文綠地的硬核版 (BipedalWalkerHardcore-v2) 在此:路途崎嶇,千山萬壑,一不小心就會(huì)墮入深淵。

  David Ha要在此證明,強(qiáng)健的身材能為智能體的策略學(xué)習(xí)帶來加成,而不只是“兩門功課同步學(xué)”那樣粗暴的合體。

  與之前的全面瘦腿不同,這次智能體的后腿,進(jìn)化出了厚實(shí)的小腿,且長(zhǎng)度和溝壑的寬度相近。

△ 紅線代表激光雷達(dá)

△ 紅線代表激光雷達(dá)

  這樣一來,在跨越鴻溝的時(shí)候,后腿就能架起一座橋,保護(hù)智能體平穩(wěn)通過,不翻車。

  與此同時(shí),前腿承擔(dān)了“危險(xiǎn)探測(cè)器”的責(zé)任,偵查前方有怎樣的障礙物,作為“激光雷達(dá)”的輔助,可以給后腿的下一步動(dòng)作提供依據(jù)。

  重點(diǎn)是,在這副新身材誕生的過程中,AI已學(xué)會(huì)了通關(guān)策略,耗時(shí)僅12小時(shí)。對(duì)比一下,不做身材優(yōu)化的原始訓(xùn)練方法,用時(shí)長(zhǎng)達(dá)40小時(shí) (前饋策略網(wǎng)絡(luò),96個(gè)GPU) 。

  這就是說,優(yōu)雅的結(jié)構(gòu)加速了智能體的學(xué)習(xí)過程。

△ 加入身材優(yōu)化(橙色) ,訓(xùn)練效率明顯提升,約1000代達(dá)成目標(biāo)

△ 加入身材優(yōu)化(橙色) ,訓(xùn)練效率明顯提升,約1000代達(dá)成目標(biāo)

  腦洞,并非從天而降

  第一,David Ha如何能預(yù)感到,改善智能體的結(jié)構(gòu)就可以提升訓(xùn)練效率?

  他說,是從大自然得到了啟發(fā)。

△ 錯(cuò)誤示范

△ 錯(cuò)誤示范

  有些動(dòng)物在腦死亡之后,依然可以蹦跳,依然可以游泳。

  也就是說,生物體的許多行為,并不依賴大腦。

  有種叫做體驗(yàn)認(rèn)知 (Embodied Cognition) 的理論認(rèn)為,認(rèn)知的許多特征,都不是大腦獨(dú)自決定:生物體的方方面面,如運(yùn)動(dòng)系統(tǒng)、感知系統(tǒng)、生物體與環(huán)境的相互作用等等,都會(huì)對(duì)認(rèn)知產(chǎn)生影響。

  比如,運(yùn)動(dòng)員在長(zhǎng)期訓(xùn)練的過程中,除了身體得到鍛煉,某些特定的心理素質(zhì)也會(huì)隨之生成。

  David Ha覺得,這樣的現(xiàn)象在AI身上也有可能發(fā)生:對(duì)軀體進(jìn)行訓(xùn)練,從而影響認(rèn)知。

  第二,通過訓(xùn)練來改變智能體結(jié)構(gòu)的想法,也是來源于自然。

△ 火烈鳥本不是紅色,吃了小魚小蝦之類的食物,羽毛才變紅



        火烈鳥本不是紅色,吃了小魚小蝦之類的食物,羽毛才變紅

  中學(xué)生物告訴我們,表現(xiàn)型是基因型與環(huán)境共同作用的結(jié)果。

  那么,各式各樣的虛擬場(chǎng)景,也會(huì)讓更適應(yīng)環(huán)境的智能體結(jié)構(gòu)脫穎而出。這樣,AI便可以借助環(huán)境的選擇,煉成更加精湛的技能。

  緣,妙不可言。



優(yōu)化型網(wǎng)站建設(shè)推薦: 鄭州網(wǎng)站建設(shè) 開封網(wǎng)站建設(shè) 平頂山網(wǎng)站建設(shè) 安陽網(wǎng)站建設(shè) 鶴壁網(wǎng)站建設(shè) 新鄉(xiāng)網(wǎng)站建設(shè) 焦作網(wǎng)站建設(shè) 濮陽網(wǎng)站建設(shè) 許昌網(wǎng)站建設(shè) 漯河網(wǎng)站建設(shè) 三門峽網(wǎng)站建設(shè) 南陽網(wǎng)站建設(shè) 商丘網(wǎng)站建設(shè) 信陽網(wǎng)站建設(shè) 周口網(wǎng)站建設(shè) 駐馬店網(wǎng)站建設(shè) 上海網(wǎng)站建設(shè) 廣州網(wǎng)站建設(shè) 深圳網(wǎng)站建設(shè) 北京網(wǎng)站建設(shè) 杭州網(wǎng)站建設(shè) 長(zhǎng)沙網(wǎng)站建設(shè) 蘇州網(wǎng)站建設(shè) 南京網(wǎng)站建設(shè) 天津網(wǎng)站建設(shè) 武漢網(wǎng)站建設(shè) 成都網(wǎng)站建設(shè) 大連網(wǎng)站建設(shè) 東莞網(wǎng)站建設(shè) 佛山網(wǎng)站建設(shè) 樂清網(wǎng)站建設(shè) 海南網(wǎng)站建設(shè) 寧波市網(wǎng)站建設(shè) 南昌網(wǎng)站建設(shè) 福州網(wǎng)站建設(shè) 常州網(wǎng)站建設(shè) 南通網(wǎng)站建設(shè) 長(zhǎng)春網(wǎng)站建設(shè) 東營(yíng)網(wǎng)站建設(shè) 南寧網(wǎng)站建設(shè) 青島網(wǎng)站建設(shè) 邯鄲網(wǎng)站建設(shè) 保定網(wǎng)站建設(shè) 安溪網(wǎng)站建設(shè) 東明網(wǎng)站建設(shè)