圖片來(lái)自“東方IC”
行為預(yù)測(cè)到底重要在哪?
在行駛過(guò)程中,自動(dòng)駕駛汽車恐怕要一直回答這個(gè)問(wèn)題——「我周邊的車輛、行人與自行車在未來(lái) 5 秒內(nèi)會(huì)做什么?」
這個(gè)問(wèn)題的學(xué)名叫「行為預(yù)測(cè)」。
行為預(yù)測(cè)到底重要在哪?
自動(dòng)駕駛公司 Pronto CEO Anthony Levandowski 講述了自己的看法:他認(rèn)為自動(dòng)駕駛原型車在「預(yù)測(cè)」能力上的短板是阻礙其奔向 Level 4/5 的絆腳石。
在 Medium 上發(fā)布的一篇博文中,Levandowski 寫道:
「現(xiàn)在沒(méi)人能實(shí)現(xiàn) Level 4/5 是因?yàn)槿缃竦能浖€不太行,它無(wú)法預(yù)測(cè)未來(lái)。在這方面,軟件跟人類直覺(jué)差遠(yuǎn)了,而行為預(yù)測(cè)又恰恰是道路安全最重要的因素。」
在 TechCrunch 的采訪中,Levandowski 又重申了這一觀點(diǎn):
「如果你想分析測(cè)試車每次『脫離』背后的故事,找到真正的原因,最終結(jié)果都是軟件故障。即使是較為成熟的公司也難以避免,因?yàn)樵趶?fù)雜環(huán)境下,車輛很容易出現(xiàn)誤解或溝通問(wèn)題。眼下我們的問(wèn)題不是能否找到更好的傳感器,而是如何解決預(yù)測(cè)這個(gè)大問(wèn)題。」
另一位持有相同觀點(diǎn)的是 Chris Urmson。2013-2016 年他是 Waymo 的實(shí)際掌舵人,現(xiàn)在則是自動(dòng)駕駛公司 Aurora 的 CEO。
在最近的一次采訪中,Urmson 告訴麻省理工助理教授 Lex Fridman:
「如果我有魔杖,會(huì)用魔力提升系統(tǒng)哪部分,好加速自動(dòng)駕駛技術(shù)落地呢?當(dāng)然是車輛的感知預(yù)測(cè)能力。也就是說(shuō),如果明天你能給我一個(gè)完美模型,告訴車輛剛才發(fā)生了什么,現(xiàn)在什么正在發(fā)生和未來(lái)五秒將發(fā)生什么,情況將大不相同。」
Waymo 和特斯拉這樣的頭部公司正試圖用深度學(xué)習(xí)來(lái)解決行為預(yù)測(cè)問(wèn)題,即用數(shù)據(jù)集訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。
對(duì)深度神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),數(shù)據(jù)越多其準(zhǔn)確度就越高,因此各家公司都開啟了瘋狂「投喂數(shù)據(jù)」模式。
特斯拉 AI 主管 Andrej Karpathy 就在今年 3 月的 Autonomy Day 上講述了特斯拉是如何玩轉(zhuǎn)深度學(xué)習(xí)的:
在類似目標(biāo)探測(cè)的深度學(xué)習(xí)應(yīng)用中,許多公司都會(huì)遭遇瓶頸,因?yàn)樗麄冃枰ㄥX請(qǐng)人手動(dòng)給圖片或視頻加標(biāo)簽。
拿目標(biāo)探測(cè)舉例,灌入神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)可能是視頻中包含了行人的一幀畫面,而各家公司想要的輸出是自動(dòng)打上「行人」這個(gè)標(biāo)簽。
當(dāng)然,訓(xùn)練神經(jīng)網(wǎng)絡(luò)也同樣是一個(gè)勞動(dòng)密集型工作。
想通過(guò)訓(xùn)練得到這樣的效果,就得給神經(jīng)網(wǎng)絡(luò)持續(xù)輸入成千上萬(wàn)張類似圖片,并且在畫面中標(biāo)出哪些是行人,而這個(gè)打標(biāo)簽的過(guò)程全靠人手工完成。
有了行為預(yù)測(cè),再加上過(guò)去 5 秒對(duì)周邊車輛動(dòng)向的輸入數(shù)據(jù),輸出端可能就會(huì)給出未來(lái) 5 秒對(duì)周邊環(huán)境變化的預(yù)測(cè)。
這 10 秒鐘的記錄會(huì)成為你手上的輸入-輸出對(duì),是訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的上好「養(yǎng)料」。至于人工打標(biāo)簽,則完全沒(méi)有必要。
采用行為預(yù)測(cè)這種方法后,你甚至不用上傳視頻,車輛能直接保存一段周邊環(huán)境的抽象記錄,而在自動(dòng)駕駛系統(tǒng)看來(lái),這段抽象記錄其實(shí)與人工打上的標(biāo)簽并無(wú)二致。
在行為預(yù)測(cè)上,特斯拉的優(yōu)勢(shì)就在于那每天奔忙在路上的 50 多萬(wàn)輛電動(dòng)車——這樣車輛搭載 Autopilot 的第二代和第三代硬件。
也就是說(shuō),特斯拉用車上搭載的 8 顆攝像頭、前置雷達(dá)、神經(jīng)網(wǎng)絡(luò)計(jì)算機(jī)搞定了車輛行駛途中的數(shù)據(jù)記錄,這些數(shù)據(jù)還能通過(guò) Wi-Fi 回傳給特斯拉。
想象一下,如果這 50 萬(wàn)輛車回傳的都是抽象記錄而非原始視頻,特斯拉的行為預(yù)測(cè)訓(xùn)練數(shù)據(jù)庫(kù)得有多強(qiáng)?
當(dāng)然,車輛獲得的數(shù)據(jù)也不會(huì)一股腦都塞給車隊(duì),篩選是個(gè)必要的過(guò)程。
舉例來(lái)說(shuō),將行為預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)犯的錯(cuò)當(dāng)訓(xùn)練數(shù)據(jù)就非常有意義,而這個(gè)糾錯(cuò)的過(guò)程是個(gè)進(jìn)步的捷徑,比投喂各種隨機(jī)數(shù)據(jù)有效多了。
簡(jiǎn)而言之,數(shù)據(jù)在精不在量。
從「長(zhǎng)尾理論」的角度來(lái)看,即使做出錯(cuò)誤行為預(yù)測(cè)的幾率很低,比如每 100 萬(wàn)英里一次,特斯拉的車隊(duì)每個(gè)月行駛 10 億英里也能拿到 1000 個(gè)「反面典型」。雖然這 1000 條數(shù)據(jù)量不大,但絕對(duì)價(jià)值連城。
雖然整個(gè)行業(yè)都如打雞血一般,但誰(shuí)也不敢肯定全自動(dòng)駕駛到底什么時(shí)候才能實(shí)現(xiàn),也許明年就能成,也許十多年后才能落地。
不過(guò),華爾街巨鱷們相信,一旦全自動(dòng)駕駛普及,自動(dòng)駕駛打車行業(yè)會(huì)大行其道,最終孕育出一個(gè)年?duì)I收破萬(wàn)億的超級(jí)市場(chǎng)。
如此巨大的誘惑之下,大家都打破頭要深耕深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)和行為預(yù)測(cè)。
ARK Invest 的金融模型預(yù)計(jì),如果特斯拉如 Musk 所言,明年實(shí)現(xiàn)全自動(dòng)駕駛,從長(zhǎng)期來(lái)看特斯拉股價(jià)漲上 20 倍都沒(méi)問(wèn)題。
即使一分進(jìn)賬都沒(méi)有,通用旗下自動(dòng)駕駛部門 Cruise 估值依然高達(dá) 190 億美元。
去年 8 月,摩根士丹利更是大膽給了 Waymo 1750 億美元的超高估值。
今年,投資銀行 Jefferies 則直接拋出 2500 億美元的新價(jià)碼,稱未來(lái)十年內(nèi) Waymo 就能站上這一臺(tái)階。最近更是有消息傳出,稱 Waymo 有意尋求外部投資者,其估值頂?shù)纳虾脦讉€(gè) Cruise。
如果說(shuō)行為預(yù)測(cè)真的是自動(dòng)駕駛最難且最重要的問(wèn)題,特斯拉在這方面還領(lǐng)先 Waymo、Cruise 等公司的話,那么特斯拉在自動(dòng)駕駛出租車和自動(dòng)駕駛卡車市場(chǎng)上必然前途不可限量,其股價(jià)也應(yīng)該大大超過(guò) Waymo 或 Cruise(現(xiàn)在特斯拉市值僅 420 億美元)。
即使全自動(dòng)駕駛永遠(yuǎn)也實(shí)現(xiàn)不了,特斯拉在半自動(dòng)駕駛市場(chǎng)也能玩的風(fēng)生水起。
現(xiàn)在特斯拉已經(jīng)上線 Navigate on Autopilot 與增強(qiáng)版召喚等功能,如果加上未來(lái)新的半自動(dòng)駕駛功能,足以讓特斯拉旗下電動(dòng)車有自己獨(dú)特的辨識(shí)度。
如果其他公司無(wú)法搭建像特斯拉一樣的數(shù)據(jù)采集車隊(duì),在深度學(xué)習(xí)上想與 Musk 競(jìng)爭(zhēng)完全是癡人說(shuō)夢(mèng),而深度學(xué)習(xí)的「深度」則決定了半自動(dòng)駕駛技術(shù)先進(jìn)與否。
一直以來(lái),許多評(píng)論家都認(rèn)為特斯拉只不過(guò)是一家電動(dòng)車公司,只要競(jìng)爭(zhēng)對(duì)手們肯用功,早晚能拿出更棒的產(chǎn)品。
事實(shí)上,Musk 眼光可沒(méi)這么短淺,自動(dòng)駕駛才是特斯拉真正的「護(hù)城河」。
從公司文化看,市場(chǎng)上的特斯拉「殺手」其實(shí)都是硬件公司。
舉例來(lái)說(shuō),2012 年特斯拉就開始進(jìn)行的 OTA 升級(jí),這些汽車廠商們現(xiàn)在才開始追趕。從長(zhǎng)遠(yuǎn)來(lái)看,這也是特斯拉保持競(jìng)爭(zhēng)力的一大動(dòng)力來(lái)源。
據(jù) Elon Musk 介紹,當(dāng)下特斯拉的神經(jīng)網(wǎng)絡(luò)與其他自動(dòng)駕駛相關(guān)軟件其實(shí)只是占據(jù)特斯拉新型定制芯片 FSD 5%-10% 的算力。
鑒于算力可助推神經(jīng)網(wǎng)絡(luò)的性能,因此未來(lái)特斯拉還會(huì)繼續(xù)進(jìn)行挖潛。
在去年第三季度財(cái)報(bào)電話會(huì)上,特斯拉 AI 主管 Andrej Karpathy 就表示,更強(qiáng)大的神經(jīng)網(wǎng)絡(luò)已經(jīng)在路上,F(xiàn)SD 是其堅(jiān)強(qiáng)后盾。
最近,Musk 也在推特上指出,今年第四季度開始,搭載 FSD 的車型在功能性上會(huì)逐漸甩開其他車型。
在懂行的人看來(lái),Musk 什么時(shí)候?qū)?FSD 的性能壓榨到極限,特斯拉就要迎來(lái)新階段。
鑒于 Karpathy 在公開場(chǎng)合頻頻釋放信號(hào),想必特斯拉新的神經(jīng)網(wǎng)絡(luò)已經(jīng)秘密開發(fā)多時(shí)。
這顆「小核彈」不但體積更大,架構(gòu)上肯定也得到了優(yōu)化(比如升級(jí)了人工神經(jīng)元和連接方式)。
對(duì)特斯拉來(lái)說(shuō),性能上的幾何級(jí)提升是其對(duì)神經(jīng)網(wǎng)絡(luò)的最大期待。
如果計(jì)算視覺(jué)神經(jīng)網(wǎng)絡(luò)沒(méi)能探測(cè)到路上的一輛車,處在下游的行為預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)也同樣會(huì)對(duì)這輛車「失明」。
同樣的,這個(gè)流程產(chǎn)生的抽象記錄質(zhì)量也會(huì)變差。所以無(wú)論是訓(xùn)練還是推理,計(jì)算視覺(jué)的提升就意味著行為預(yù)測(cè)的進(jìn)步。
這樣的道理也適用于模仿學(xué)習(xí),而特斯拉就在用這項(xiàng)技術(shù)進(jìn)行路徑預(yù)測(cè)。
在模仿學(xué)習(xí)過(guò)程中,神經(jīng)網(wǎng)絡(luò)會(huì)「吸入」一些輸入數(shù)據(jù),它可能是原始視頻,但恐怕更像計(jì)算視覺(jué)神經(jīng)網(wǎng)絡(luò)生成的抽象記錄。
整個(gè)神經(jīng)網(wǎng)絡(luò)通路走下來(lái),大家想在輸出端得到車輛下一步該采取什么行動(dòng)的指示,隨后這些數(shù)據(jù)會(huì)被傳輸至控制軟件以決定到底該下什么命令(剎車、轉(zhuǎn)向還是加速)。
借助成千上萬(wàn)特斯拉車主,特斯拉能采集到豐富的輸出數(shù)據(jù)。這些數(shù)據(jù)與抽象記錄相結(jié)合,就能生成訓(xùn)練所用的「輸入-輸出」。
在模仿學(xué)習(xí)中,這個(gè)「輸入-輸出」對(duì)其實(shí)就是「狀態(tài)-動(dòng)作」,它包含了世界或周邊環(huán)境的狀態(tài),以及人類駕駛員的動(dòng)作。
與行為預(yù)測(cè)類似,模仿學(xué)習(xí)的「輸入-輸出」對(duì)也無(wú)需人類對(duì)數(shù)據(jù)進(jìn)行手動(dòng)標(biāo)記。
有了充足的「狀態(tài)-動(dòng)作」對(duì),神經(jīng)網(wǎng)絡(luò)就能從人類駕駛員那里學(xué)到狀態(tài)與動(dòng)作間的聯(lián)系。再加上充分的訓(xùn)練,神經(jīng)網(wǎng)絡(luò)就能自己找到發(fā)號(hào)施令的狀態(tài),從而學(xué)會(huì)駕駛。
如果在模仿學(xué)習(xí)中用到了抽象記錄,那么訓(xùn)練和推理中計(jì)算視覺(jué)錯(cuò)誤的減少,也意味著模仿學(xué)習(xí)錯(cuò)誤的減少。
此外,提升行為預(yù)測(cè)能力也能促進(jìn)模仿學(xué)習(xí)。
也就是說(shuō),模仿學(xué)習(xí)用到的輸入數(shù)據(jù)并不一定非要來(lái)自計(jì)算視覺(jué)網(wǎng)絡(luò),行為預(yù)測(cè)網(wǎng)絡(luò)也能貢獻(xiàn)額外的輸入數(shù)據(jù)。
(ChauffeurNet 組成部分:FeatureNet 和 AgentRNN)
Waymo 的模仿學(xué)習(xí)網(wǎng)絡(luò) ChauffeurNet 就遵循了這樣的邏輯。
它將視覺(jué)、預(yù)測(cè)與模擬編織在一張網(wǎng)里之后,模仿學(xué)習(xí)就能有兩個(gè)參考目標(biāo),學(xué)習(xí)起人類司機(jī)的動(dòng)作就更高效了。
想要搞清環(huán)境狀態(tài)與駕駛員動(dòng)作之間的關(guān)聯(lián),模仿網(wǎng)絡(luò)就得被置于與人類司機(jī)相同的環(huán)境下,并且獲取相同的信息。
眾所周知,人類開車不只靠視覺(jué),我們還有很強(qiáng)的預(yù)測(cè)能力。
在自動(dòng)駕駛系統(tǒng)中:
計(jì)算視覺(jué)網(wǎng)絡(luò)負(fù)責(zé)重建人類眼睛看到的車輛外部環(huán)境;
行為預(yù)測(cè)網(wǎng)絡(luò)則需要再造人類大腦中的整個(gè)預(yù)測(cè)流程。
兩大網(wǎng)絡(luò)的目的都是拿出正確的駕駛策略。
未來(lái),自動(dòng)駕駛汽車可能會(huì)直接從像素中獲取相關(guān)信息,但眼下機(jī)器學(xué)習(xí)工程師還是傾向于將任務(wù)分配給視覺(jué)、預(yù)測(cè)和模仿。
因此,預(yù)測(cè)能力(作為輸入)的提升也意味著模仿能力的提升,而視覺(jué)能力(作為輸入)的進(jìn)步則能讓預(yù)測(cè)和模仿共同受益。
在討論數(shù)據(jù)采集時(shí),許多人并不看好特斯拉的「超級(jí)車隊(duì)」,因?yàn)樗麄冋J(rèn)為特斯拉付不起人工打標(biāo)簽的錢。
可惜,特斯拉根本就沒(méi)玩監(jiān)督學(xué)習(xí)那一套,行為預(yù)測(cè)才是終極殺器。
除此之外,特斯拉還用上了模仿學(xué)習(xí),而它不用人工打標(biāo)簽。
其實(shí),即使選擇用傳統(tǒng)的監(jiān)督學(xué)習(xí)研究計(jì)算視覺(jué),特斯拉的車隊(duì)也能帶來(lái)各種價(jià)值連城的數(shù)據(jù)(包括各種極端情況)。
舉例來(lái)說(shuō),用來(lái)識(shí)別馬匹的深度學(xué)習(xí)網(wǎng)絡(luò)也可以在車上運(yùn)行,一旦它覺(jué)得馬出現(xiàn)了,就能啟動(dòng)相機(jī)快速拍一張。顯然,這種方法能用在識(shí)別相對(duì)稀有的物體上。
眼下,業(yè)界正在攻克計(jì)算視覺(jué)的自監(jiān)督學(xué)習(xí)技術(shù),有了它,訓(xùn)練信號(hào)就可以完全取自數(shù)據(jù)本身,無(wú)需人工標(biāo)簽。
據(jù)汽車之心了解,在深度感知領(lǐng)域,特斯拉已經(jīng)開始試驗(yàn)自監(jiān)督學(xué)習(xí)。
上述討論可能有些晦澀難懂,不過(guò)特斯拉未來(lái)到底價(jià)值幾何其實(shí)靠的就是這些技術(shù)。
面對(duì)自動(dòng)駕駛這個(gè)萬(wàn)億級(jí)別的市場(chǎng),誰(shuí)都想成為領(lǐng)軍者。而這,意味著數(shù)千億美元的估值。
來(lái)源:汽車之心
作者:林芝芝
本文地址:http://ewshbmdt.cn/news/pinglun/97551
以上內(nèi)容轉(zhuǎn)載自汽車之心,目的在于傳播更多信息,如有侵僅請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除,轉(zhuǎn)載內(nèi)容并不代表第一電動(dòng)網(wǎng)(ewshbmdt.cn)立場(chǎng)。
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除。