今天,OpenAI宣布了一種新型算法:“一次性模擬學習(one-shot imitation learning)”,當人類在VR中演示一次某個動作后,機器通過學習這一動作就可以執(zhí)行出相同的結(jié)果。
OpenAI是Elon Musk于2015年12月宣布成立的非盈利AI項目,科研人員會將大部分研究成果開源共享;主要關(guān)注增強學習和無監(jiān)督學習——谷歌此前名聲大噪的圍棋程序AlphaGo用的就是增強學習;而無監(jiān)督學習需要機器處理大量沒有標記的數(shù)據(jù),自己找到區(qū)分不同數(shù)據(jù)子集、集群、或者相似圖像的辦法,有點像嬰兒學習世界的方式,一直被視作人工智能的真正潛力釋放點。
卷積神經(jīng)網(wǎng)絡(luò)之父Yann LeCun有一個經(jīng)典比喻:如果人工智能是一塊蛋糕,增強學習(Reinforcement Learning)就是蛋糕上的一粒櫻桃,而監(jiān)督學習(Supervised Learning)是蛋糕外的一層糖霜,但無監(jiān)督學習(Unsupervised Learning)才是蛋糕本身。目前我們只知道如何制作糖霜和櫻桃,卻不知道如何做蛋糕。
一次性模擬學習
OpenAI宣布的這種新型算法“一次性模擬學習(one-shot imitation learning)”指的是,當人類在VR中演示一次某個動作后,比如將桌面藍色的小盒子疊放在紅色小盒子上這個動作,機器通過學習這一動作就可以執(zhí)行出相同的結(jié)果,并且不論桌面盒子擺放的順序如何,機器都可以準確執(zhí)行。
這套學習系統(tǒng)由兩個神經(jīng)網(wǎng)絡(luò)組成:一個視覺網(wǎng)絡(luò)(vision network)和一個模仿網(wǎng)絡(luò)(imitation network)。
視覺網(wǎng)絡(luò)(vision network)獲得的圖像來自機器人的攝像機,此前,這個視覺網(wǎng)絡(luò)經(jīng)過數(shù)十萬張模擬圖像的訓練,每張都具有不同紋理、光影效果等(但是從未使用真實圖像進行訓練);
模擬網(wǎng)絡(luò)(imitation network)則必須生成一個與VR演示動作一致的執(zhí)行步驟,并且推斷出該任務(wù)的意圖,使得在初始設(shè)定變更時(如盒子的擺放順序調(diào)亂時)依舊可以找到藍色的盒子并把它疊在紅盒子上。
目前,學術(shù)界與產(chǎn)業(yè)界都在尋找使用各種訓練機器人的手法,比如英偉達CEO黃仁勛在上周的GTC大會上也宣布了一款名為ISAAC的增強學習世界模擬器,創(chuàng)造出一個完全虛擬的、專為訓練機器人而打造的世界。
這是一個遵循物理法則但不遵循時間法則的世界,在現(xiàn)實生活中,你想要訓練一臺機器學會打冰球,你要將這個冰球放在機器前面,一遍一遍地教會它;而在虛擬世界里,機器可以在一秒內(nèi)重復眾多次這樣的動作,而且你還可以同時訓練一堆機器學習打球,然后找到里面最聰明的一個,將它的“大腦”程序復制出來,創(chuàng)建一堆同樣的機器再繼續(xù)訓練篩選。
來源:智東西
本文地址:http://ewshbmdt.cn/news/jishu/52135
以上內(nèi)容轉(zhuǎn)載自智東西,目的在于傳播更多信息,如有侵僅請聯(lián)系admin#d1ev.com(#替換成@)刪除,轉(zhuǎn)載內(nèi)容并不代表第一電動網(wǎng)(ewshbmdt.cn)立場。
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請聯(lián)系admin#d1ev.com(#替換成@)刪除。