8 月 10 日,寧波高架發(fā)生一起小鵬 P7 追尾致人死亡的事故。
發(fā)生事故的原因主要有兩點(diǎn),一是被撞車(chē)輛是靜止的。二是被撞人員站在車(chē)后。離車(chē)很近的地方是水泥護(hù)欄,還有一個(gè)人蹲著,離被撞車(chē)很近。
即便這次事故,車(chē)主沒(méi)有開(kāi)啟 NGP 功能,AEB 系統(tǒng)也應(yīng)該起作用,但上述的原因讓 AEB 系統(tǒng)失效了。
有人可能會(huì)說(shuō)時(shí)速 80 公里超出了 AEB 的上限,早期的 AEB 系統(tǒng)的確如此,上限一般是時(shí)速 60 公里。
2020 年后的新一代 AEB 則不然,在速度上限內(nèi)是剎停,也就是剎車(chē)力度會(huì)達(dá)到最大,超過(guò)上限則是減速。
以特斯拉為例,如減速 50 公里,那么系統(tǒng)則在時(shí)速 110 公里情況下觸發(fā) AEB,最多減速至?xí)r速 60 公里。
有些如奔馳,AEB 速度上限高達(dá)時(shí)速 110 公里。
還有些車(chē)型把這一部分單獨(dú)抽出,稱之為碰撞緩解,實(shí)際就是加強(qiáng)版的 AEB。
只減速不剎停,這樣做也是為了避免高速情況下后車(chē)的追尾。
蔚來(lái)和特斯拉都發(fā)生過(guò)撞靜止車(chē)輛的事故,特斯拉的次數(shù)尤其多,多次撞向白色卡車(chē)和消防車(chē)。
在封閉場(chǎng)地測(cè)試時(shí),我們可以看到靜止車(chē)輛或行人都能觸發(fā) AEB,即使最廉價(jià)的車(chē)型都能做到剎停。
但為何在真實(shí)道路上,遇到靜止目標(biāo)時(shí),AEB 不行了?
01、分離動(dòng)態(tài)目標(biāo)的常見(jiàn)三種方法
圖像識(shí)別流程
我們先從先從圖像識(shí)別流程和運(yùn)用目標(biāo)分離方法來(lái)看看自動(dòng)駕駛系統(tǒng)是如何識(shí)別和處理障礙物的。
上圖為機(jī)器視覺(jué)的處理流程,其主要過(guò)程為輸入圖像,對(duì)輸入的圖像進(jìn)行預(yù)處理。
預(yù)處理之后的圖像,再對(duì)其進(jìn)行ROI區(qū)域檢測(cè)或者異常檢測(cè),對(duì)已經(jīng)檢測(cè)出來(lái)的區(qū)域進(jìn)行特征提取分類識(shí)別等。
系統(tǒng)對(duì)運(yùn)動(dòng)目標(biāo)是需要特別重視的,會(huì)優(yōu)先處理運(yùn)動(dòng)目標(biāo),因此第一步要將運(yùn)動(dòng)目標(biāo)從背景圖中分割出來(lái),有些系統(tǒng)為了避免誤動(dòng)作,干脆將靜態(tài)目標(biāo)過(guò)濾掉。
運(yùn)動(dòng)目標(biāo)分離方法
分離動(dòng)態(tài)目標(biāo)最常見(jiàn)的三種方法是幀差法、光流法和背景差法。
考慮到實(shí)時(shí)性和成本,目前業(yè)內(nèi)大多采用幀差法。這種方法對(duì)運(yùn)算資源消耗最少,最容易達(dá)到實(shí)時(shí)性,但缺點(diǎn)準(zhǔn)確度不高。
所謂幀差法,即檢測(cè)相鄰幀之間的像素變化。
幀差法的基本思想是:運(yùn)動(dòng)目標(biāo)視頻中,可以根據(jù)時(shí)間提取出系列連續(xù)的序列圖像,在這些相鄰的序列圖像中,背景的像素變化較小,而運(yùn)動(dòng)目標(biāo)的像素變化較大,利用目標(biāo)運(yùn)動(dòng)導(dǎo)致的像素變化差,則可以分割出運(yùn)動(dòng)目標(biāo)。
幀差法可以分為兩幀差分法與三幀差分法。
兩幀差分法
三幀差分法
兩幀差分法就是將視頻采集到時(shí)序列圖像的相鄰兩幀圖像進(jìn)行差分。
對(duì)相鄰的兩幀圖像進(jìn)行差分,可以在任何具有復(fù)雜的圖像特征(例如,紋理特征、灰度均值等) 上進(jìn)行。
因此,只要明顯區(qū)別與背景的運(yùn)動(dòng)物體均可檢測(cè)出來(lái)。
根據(jù)給定的閾值,對(duì)差分結(jié)果二值化:
若差值圖像大于給定閾值,則認(rèn)為該像素點(diǎn)是前景目標(biāo)中的點(diǎn),并將該像素點(diǎn)作為運(yùn)動(dòng)目標(biāo)的一部分;
若差值圖像小于給定閾值,則認(rèn)為該像素點(diǎn)屬于背景目標(biāo)點(diǎn),從而將運(yùn)動(dòng)目標(biāo)從背景目標(biāo)中分割出來(lái)。
圖像進(jìn)行閾值分割之后,通常都帶有噪聲,因此需要使用形態(tài)學(xué)濾波的方法對(duì)噪聲進(jìn)行衰減。衰減噪聲后得到的圖像運(yùn)動(dòng)目標(biāo)會(huì)存在一些空洞,需要進(jìn)行連通性處理,最后才得到判別目標(biāo)。
閾值設(shè)定太低,檢測(cè)不到目標(biāo)。設(shè)定太高,會(huì)被檢測(cè)為兩個(gè)分開(kāi)的物體。
同時(shí)對(duì)于比較大、顏色一致的運(yùn)動(dòng)目標(biāo),如白色大貨車(chē),幀間差分法會(huì)在目標(biāo)內(nèi)部產(chǎn)生空洞,無(wú)法完整分割提取運(yùn)動(dòng)目標(biāo)。
分離出動(dòng)態(tài)目標(biāo),對(duì)目標(biāo)進(jìn)行識(shí)別并探測(cè)其距離,如果動(dòng)態(tài)目標(biāo)都已經(jīng)處理完畢,這才開(kāi)始處理靜態(tài)目標(biāo)。而在封閉場(chǎng)地測(cè)試場(chǎng)里,只有一個(gè)目標(biāo),很輕松就能分離出背景,只處理靜態(tài)目標(biāo)。
而在真實(shí)道路上,靜止目標(biāo)比移動(dòng)目標(biāo)的檢測(cè)要晚大約 2 到 4 秒,這次發(fā)生事故時(shí),小鵬 P7 的時(shí)速是 80 公里,也就是 44 到 88 米。
光流法是利用圖像序列中像素在時(shí)間域上的變化以及相鄰幀之間的相關(guān)性,來(lái)找到上一幀跟當(dāng)前幀之間存在的對(duì)應(yīng)關(guān)系,從而計(jì)算出相鄰幀之間物體的運(yùn)動(dòng)信息。
研究光流場(chǎng)的目的就是為了從圖片序列中近似得到不能直接得到的運(yùn)動(dòng)場(chǎng),其本質(zhì)是一個(gè)二維向量場(chǎng),每個(gè)向量表示場(chǎng)景中該點(diǎn)從前一幀到后一幀的位移。對(duì)光流的求解,即輸入兩張連續(xù)圖象(圖象像素),輸出二維向量場(chǎng)。
除了智能駕駛,體育比賽中各種球類的軌跡預(yù)測(cè),軍事行動(dòng)中的目標(biāo)軌跡預(yù)測(cè)都能用到。
光流場(chǎng)是運(yùn)動(dòng)場(chǎng)在二維圖像平面上的投影。因?yàn)榱Ⅲw雙目和激光雷達(dá)都是 3D 傳感器,而單目或三目是 2D 傳感器,所以單目或三目的光流非常難做。
光流再分為稀疏和稠密(Dense)兩種,稀疏光流對(duì)部分特征點(diǎn)進(jìn)行光流解算,稠密光流則針對(duì)的是所有點(diǎn)的偏移。
最常見(jiàn)的光流算法即 KLT 特征追蹤,早期的光流算法都是稀疏光流,手工模型或者說(shuō)傳統(tǒng)算法。
2015 年有人提出深度學(xué)習(xí)光流法,在 CVPR2017 上發(fā)表改進(jìn)版本 FlowNet2.0,成為當(dāng)時(shí)最先進(jìn)的方法。截止到現(xiàn)在,FlowNet 和FlowNet2.0 依然是深度學(xué)習(xí)光流估計(jì)算法中引用率最高的論文。
傳統(tǒng)算法計(jì)算資源消耗少,實(shí)時(shí)性好,效果比較均衡,但魯棒性不好。
深度學(xué)習(xí)消耗大量的運(yùn)算資源,魯棒性好,但容易出現(xiàn)極端,即某個(gè)場(chǎng)景非常差,但無(wú)法解釋,與訓(xùn)練數(shù)據(jù)集關(guān)聯(lián)程度高。
即使強(qiáng)大的英偉達(dá) Orin 芯片,在 FlowNet2.0 上也無(wú)法做到實(shí)時(shí)性,畢竟 Orin 不能只做光流這一件事。
光流法比幀差法準(zhǔn)確度要高,但會(huì)大量消耗運(yùn)算資源。
02、4D 毫米波雷達(dá)會(huì)漏檢嗎?
四種毫米波雷達(dá)性能對(duì)比
目前典型的 76GHz 毫米波雷達(dá)的帶寬是 500GHz
大部分毫米波雷達(dá)的帶寬是 500MHz,也就是 0.5GHz,目標(biāo)分離度是 150 厘米。
也就是說(shuō),1.5 米內(nèi)的兩個(gè)目標(biāo),毫米波雷達(dá)會(huì)識(shí)別成一個(gè)——這次小鵬 P7 發(fā)生的事故也是如此,車(chē)輛很靠近水泥護(hù)欄,很有可能會(huì)被認(rèn)為是一個(gè)目標(biāo)。
特斯拉最近也在研發(fā)毫米波雷達(dá),其帶寬應(yīng)該是 500MHz,全球最先進(jìn)的 4D 毫米波雷達(dá)即大陸汽車(chē)的 ARS540,也是 500MHz。
博世還未量產(chǎn)的 4D 毫米波雷達(dá)是867MHz,比特斯拉和大陸都要好,缺點(diǎn)可能是功耗太高,射頻輸出功率達(dá)到驚人的 5495 毫瓦,整體功耗估計(jì)有 30-60 瓦。
ARS540 的射頻輸出功率是 1143 毫瓦,整體功耗大概 10 瓦。這對(duì)一個(gè)一直常開(kāi)的傳感器來(lái)說(shuō)功耗似乎太高了。
再有就是雖然 60GHz 以上波段無(wú)需牌照,但超過(guò) 1GHz 的帶寬,可能還是會(huì)有監(jiān)管,在沒(méi)有明確政策出臺(tái)前,業(yè)界不敢研發(fā)這種高寬帶雷達(dá),萬(wàn)一禁止就白研發(fā)了。
因?yàn)槟繕?biāo)分離度的問(wèn)題,我估計(jì)廠家為了避免誤動(dòng)作,未必敢將 4D 毫米波雷達(dá)單獨(dú)做為 AEB 的觸發(fā)條件,肯定要以視覺(jué)為準(zhǔn)。
除了靜止目標(biāo)原因外,這次小鵬 P7 在事故發(fā)生前,被撞者走到車(chē)尾。這就形成了一個(gè)很罕見(jiàn)的目標(biāo),既像車(chē)又像行人,在這種情況下,就會(huì)出現(xiàn)漏檢。
03、基于單目、三目的機(jī)器視覺(jué),有著天然缺陷
基于單目或三目的機(jī)器視覺(jué),有著天然的無(wú)法改變的缺陷,這個(gè)缺陷表現(xiàn)為識(shí)別或者說(shuō)分類與探測(cè)是一體的,無(wú)法分割,特別是基于深度學(xué)習(xí)的機(jī)器視覺(jué)。
也就是說(shuō),如果系統(tǒng)無(wú)法將目標(biāo)分類(也可以通俗地說(shuō)是識(shí)別),也就無(wú)法探測(cè)。
換句話說(shuō),如果系統(tǒng)無(wú)法識(shí)別目標(biāo),就認(rèn)為目標(biāo)不存在。車(chē)輛會(huì)認(rèn)為前方無(wú)障礙物,會(huì)不減速直接撞上去。
什么狀況下無(wú)法識(shí)別?
有兩種情況:
第一種是訓(xùn)練數(shù)據(jù)集無(wú)法完全覆蓋真實(shí)世界的全部目標(biāo),能覆蓋 10% 都已經(jīng)稱得上優(yōu)秀了,更何況真實(shí)世界每時(shí)每刻都在產(chǎn)生著新的不規(guī)則目標(biāo)。
深度學(xué)習(xí)這種窮舉法有致命缺陷。特斯拉多次事故都是如此,比如在中國(guó)兩次在高速公路上追尾掃地車(chē)(第一次致人死亡),在美國(guó)多次追尾消防車(chē)。
第二種是圖像缺乏紋理特征,比如在攝像頭前放一張白紙,自然識(shí)別不出來(lái)是什么物體。某些底盤(pán)高的大貨車(chē)側(cè)面,就如同白紙,基于深度學(xué)習(xí)的機(jī)器視覺(jué)此時(shí)就如同盲人,不減速直接撞上去。
在以深度學(xué)習(xí)為核心的機(jī)器視覺(jué)里,邊界框(Bounding Box)是關(guān)鍵元素。
在檢測(cè)任務(wù)中,我們需要同時(shí)預(yù)測(cè)物體的類別和位置,因此需要引入一些與位置相關(guān)的概念。通常使用邊界框來(lái)表示物體的位置,邊界框是正好能包含物體的矩形框。
對(duì)單目、三目來(lái)說(shuō),其機(jī)器視覺(jué)如下圖:
那么立體雙目呢?
雙目可以準(zhǔn)確識(shí)別出中央隔離帶,無(wú)論怎么用深度學(xué)習(xí)、單目、虛擬雙目,單目和三目在這種大面積空洞無(wú)紋理特征的車(chē)側(cè)和車(chē)頂圖像前,就如同瞎子,什么也看不到。
事實(shí)上,特斯拉也有撞上中央隔離帶致人死亡的事故。
立體雙目的流程是這樣的,如下圖:
最后輸出可行駛空間(free space),與單目、三目完全不同,它不需要識(shí)別,自然也不需要畫(huà)出Bounding Box。
雙目也有缺點(diǎn),運(yùn)算量太高。當(dāng)然,雙目不需要 AI 運(yùn)算。
盡管只有奔馳和豐田用英偉達(dá)處理器處理立體雙目,新造車(chē)勢(shì)力除了 RIVIAN,目前都不使用立體雙目(小鵬、小米可能在將來(lái)使用立體雙目),但英偉達(dá)每一次硬件升級(jí)都不忘對(duì)立體雙目部分特別關(guān)照。
英偉達(dá)立體雙目處理流程,立體雙目視差的獲得需要多種運(yùn)算資源的參加,包括了 VIC、GPU(CUDA)、CPU 和 PVA。
英偉達(dá) Orin 平臺(tái)立體雙目視差測(cè)試成績(jī),要達(dá)到每秒 30 幀,那么處理時(shí)間必須低于 30 毫秒,考慮到還有后端決策與控制系統(tǒng)的延遲,處理時(shí)間必須低于 20 毫秒。
1 個(gè)下取樣情況下,顯然無(wú)法滿足 30 幀的要求。
4 個(gè)下取樣,不加置信度圖時(shí),單用 OFA 就可以滿足。加置信圖后,需要 OFA/PVA/VIC 聯(lián)手,也能滿足 30 幀需求。但這只是 200 萬(wàn)像素的情況下,300 萬(wàn)像素估計(jì)就無(wú)法滿足了。
奔馳的立體雙目是 170 萬(wàn)像素,輸出視差圖的邊緣精度不會(huì)太高,有效距離也不會(huì)太遠(yuǎn)。如本文開(kāi)頭所說(shuō)的狀況,估計(jì)可以減速,但難以剎停,反應(yīng)時(shí)間不夠。
可以說(shuō),除了立體雙目系統(tǒng),遇到這次小鵬 P7 事故這樣的怪異目標(biāo),都會(huì)漏檢。
04、激光雷達(dá)能否避免這類事故的發(fā)生?
那么,裝了激光雷達(dá)會(huì)不會(huì)避免這個(gè)事故?
恐怕也不能。
目前主流的激光雷達(dá)也是基于深度學(xué)習(xí)的,純深度學(xué)習(xí)視覺(jué)遇到的問(wèn)題,激光雷達(dá)也會(huì)遇到,無(wú)法識(shí)別就畫(huà)不出Bounding Box,就認(rèn)為前面什么都沒(méi),不減速撞上去。
主流的激光雷達(dá)算法經(jīng)歷了三個(gè)階段:
第一階段是 PointNet
第二階段是Voxel
第三階段是PointPillar
PointPillar 少了 Z 軸切割,而是使用 2D 骨干,這導(dǎo)致其精度下降,性能相較于純 2D 的視覺(jué),提升并不明顯。這也就是為什么特斯拉不使用激光雷達(dá)。
而不依賴深度學(xué)習(xí)、具備可解釋性的多線激光雷達(dá)算法,目前還未見(jiàn)面世。博世、奔馳和豐田在研究,這會(huì)是一個(gè)漫長(zhǎng)的過(guò)程。
深度學(xué)習(xí)太好用了,不到半年,一個(gè)普通大學(xué)生就可以熟練調(diào)參。
深度學(xué)習(xí)淘汰了幾乎所有的傳統(tǒng)算法。
眼下,幾乎沒(méi)有人研究激光雷達(dá)的傳統(tǒng)算法,比如激光雷達(dá)的強(qiáng)度成像。
目前,智能駕駛最關(guān)鍵的問(wèn)題是過(guò)于依賴不具備解釋性的深度學(xué)習(xí),或者說(shuō)深度神經(jīng)網(wǎng)絡(luò),也就是大家常說(shuō)的 AI——這可能導(dǎo)致無(wú)人駕駛永遠(yuǎn)無(wú)法實(shí)現(xiàn)。
來(lái)源:第一電動(dòng)網(wǎng)
作者:汽車(chē)之心
本文地址:http://ewshbmdt.cn/kol/182415
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除。