蓋世汽車訊 據(jù)外媒報道,麻省理工學院(MIT)的研究人員開發(fā)出一種全新深度學習算法,可對所接收的測量數(shù)據(jù)和輸入建立健全的“懷疑”機制,幫助機器在真實、不完美的世界中導(dǎo)航。
文章首席作者及麻省理工學院航空與航天系博士后Michael Everett表示:“盡管目前基于深度神經(jīng)網(wǎng)絡(luò)的系統(tǒng)在許多機器人任務(wù)中都算很前沿,但在安全關(guān)鍵領(lǐng)域中,由于深度神經(jīng)網(wǎng)絡(luò)系統(tǒng)的網(wǎng)絡(luò)魯棒性沒有正式的保障,所以仍然很危險。一旦傳感器輸入受到小擾動(如噪聲或?qū)剐詫嵗┩ǔ淖兓诰W(wǎng)絡(luò)的決策,如自動駕駛汽車會因此變換車道。
鑒于上述危險,研究人員已根據(jù)這些對抗性輸入開發(fā)出很多算法建立防御機制。部分對抗性輸入還可提供正式的魯棒性保證或證明。此項工作利用了經(jīng)驗證的對抗魯棒性,進而為深度強化學習算法開發(fā)可靠的在線魯棒算法。
(圖像來源:MIT)
由于存在潛在對抗和噪音,輸入空間可能會出現(xiàn)最糟糕的偏差,因此提出的防御措施會在識別和選擇魯棒操作執(zhí)行期,需要計算狀態(tài)操作值的保證下限。而且,即使驗證者可能因干擾不了解真實狀態(tài)和最佳操作,最終策略仍可具備解決方案品質(zhì)保證?!?/p>
該研究團隊將強化學習算法與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,構(gòu)建出新方法:CARRL,即深度強化學習的認證對抗性魯棒性(Certified Adversarial Robustness for Deep Reinforcement Learning)。研究人員在不同場景中對該方法進行了測試,如碰撞仿真測試和視頻游戲Pong,發(fā)現(xiàn)即使存在不確定性和對抗性輸入,CARRL也比標準的機器學習技術(shù)表現(xiàn)地更好,不僅成功避免碰撞,且在Pong游戲中多次獲勝。
Everett還表示:“在出現(xiàn)對抗性時,用戶總是認為有人入侵其電腦,但有可能只是傳感器性能不佳或測量工具有誤,這都很常見。我們的新算法可解決這一問題并做出安全決策。任何需要極高安全性的地方都應(yīng)該考慮采用該算法?!?/p>
可能的現(xiàn)實:為了使AI系統(tǒng)能夠抵抗對抗性輸入,研究人員曾為監(jiān)督學習采用防御措施。通常情況下,會通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)使其將標簽或動作與給定輸入相關(guān)聯(lián)。例如,曾接收過大量被標記為貓、房屋和熱狗圖像的神經(jīng)網(wǎng)絡(luò)可以正確標記新圖像為貓。
在強大的AI系統(tǒng)中,相同的監(jiān)督學習技術(shù)可使用稍作更改的圖像版本測試。如果網(wǎng)絡(luò)對每張圖片的標記標簽均為“貓”,無論是否更改,該圖片很有可能確實是貓,則該網(wǎng)絡(luò)對于任何對抗性影響都具有較強的魯棒性。但瀏覽所有圖像是不可能的,且很難應(yīng)對高時效性任務(wù),如避免碰撞。此外,如果網(wǎng)絡(luò)較不穩(wěn)定性,且一些經(jīng)修改的貓圖片會被標記為房屋或熱狗,那么現(xiàn)有方法無法標識圖像標簽或確定采取何種措施。
研究人員Bj?rn Lütjens表示:“為了在對安全性要求高的場景下使用神經(jīng)網(wǎng)絡(luò),我們必須知道如何在最壞情況下做出實時決策?!?/p>
該團隊希望以強化學習為基礎(chǔ)。強化學習是機器學習的另一種形式,不需要將標記的輸入與輸出相關(guān)聯(lián),而是旨在強化對某些輸入做出的響應(yīng)動作。這種方法通常用于訓(xùn)練計算機競技類游戲,如象棋和圍棋。采用強化學習的前提是,假設(shè)輸入正確。Everett及其同事們稱此次研究是首次在強化學習中給不確定、對抗性的輸入帶來“可驗證的魯棒性”。
他們所采用的方法CARRL使用現(xiàn)有的深度強化學習算法來訓(xùn)練深度Q網(wǎng)絡(luò)或DQN(一種多層神經(jīng)網(wǎng)絡(luò),最終將輸入與Q值或獎勵水平相關(guān)聯(lián))。該方法采用輸入(例如帶有單個點的圖像),并考慮對抗性影響或?qū)嶋H上可能在點周圍的區(qū)域?;诼槭±砉W院研究生Tsui-Wei“Lily” Weng博士研發(fā)的技術(shù),該點在所處區(qū)域內(nèi)的每個可能位置都由DQN連通,發(fā)現(xiàn)關(guān)聯(lián)舉動,從而引起最佳最壞情況發(fā)生。
對抗的世界:在視頻游戲Pong的測試中,兩名玩家手持屏幕兩側(cè)的球拍來回傳遞乒乓球。研究人員在游戲中加入了一個“對手”,將球拉得比實際球高得多。他們發(fā)現(xiàn),隨著對手的影響力不斷增強,CARRL比標準技術(shù)的獲勝率更高。
Everett表示:“如果預(yù)設(shè)測量值不完全值得信任,且乒乓球可能在固定區(qū)域內(nèi)的任何地方,那么使用該方法通知計算機將球拍置于該區(qū)域的中間,從而確保在最壞偏差下?lián)糁衅古仪??!?/p>
該方法在碰撞測試中同樣具有魯棒性。在碰撞測試中,該團隊模擬了一個藍色和橙色代理,試圖在不發(fā)生碰撞的情況下切換位置。當團隊擾亂橙色代理對藍色代理位置的觀察時,CARRL將橙色代理引導(dǎo)到另一個代理周圍,隨著對手越強大,泊位越寬,藍色代理的位置變得越不確定。
CARRL的保守變化使得橙色代理會假設(shè)另一種代理可能在其附近的任何地方,作為回應(yīng),可能會錯過了目的地。Everett稱,這種極端保守的做法很有用,研究人員可以將其用作調(diào)整算法魯棒性的限制。比如,該算法可能會考慮較小的偏差或不確定性區(qū)域,這仍將允許代理獲得較高的報酬并到達其目的地。Everett還稱,除克服傳感器缺陷外,CARRL可能是幫助機器人安全處理現(xiàn)實世界中不可預(yù)測的交互作用的開始。
Everett表示:“人類是有對抗性的,如站在機器人前面阻礙傳感器或與它們進行交互,但不一定是出于最佳意圖。機器人如何思考人們可能會嘗試做的所有事情?如何設(shè)法避免它們發(fā)生?我們要防御哪種對抗模型? 這就是我們正在考慮的方法?!?a class='link' target='_blank'>福特公司作為MIT的盟友,也對該項研究提供了部分支持。
來源:蓋世汽車
作者:劉麗婷
本文地址:http://ewshbmdt.cn/news/jishu/142235
以上內(nèi)容轉(zhuǎn)載自蓋世汽車,目的在于傳播更多信息,如有侵僅請聯(lián)系admin#d1ev.com(#替換成@)刪除,轉(zhuǎn)載內(nèi)容并不代表第一電動網(wǎng)(ewshbmdt.cn)立場。
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請聯(lián)系admin#d1ev.com(#替換成@)刪除。