2022年下半年,智駕行業(yè)開始彌漫一股去高精地圖的趨勢;2023年,隨著彼時還是華為車BU CEO的余承東振臂一呼,業(yè)內(nèi)去高精地圖的呼聲達(dá)到高潮。時至今日,“無圖NOA,全國都能開”的宣傳口號已經(jīng)成為車企們的通用詞匯,高精地圖早已被人們遺忘在角落。
尤其這兩年軟硬件技術(shù)的雙向提升也讓業(yè)內(nèi)在“去高精地圖”上有了更多底氣。
首先是網(wǎng)絡(luò)模型提取特征能力提升。相比于基于規(guī)則和小模型的智駕方案,智駕進(jìn)入BEV+Transformer+OCC和端到端階段,智駕方案的環(huán)境感知和運(yùn)動規(guī)劃能力都得到提升;
其次,目前的智駕傳感器方案至少采用6V+方案,相比傳統(tǒng)的單目方案擁有更大的信息輸入量,并且比多目后融合的精度更高,錯誤更少,感知能力明顯提升。
此外,端到端大模型的實時運(yùn)行能力提升了系統(tǒng)效率,地平線征程6等高算力芯片可以提供更多的算力和算子支持。系統(tǒng)的承載和表達(dá)能力更強(qiáng)了,也就無形中提高了它的上限能力。
這些都加速了行業(yè)“去高精地圖”的步伐。
端到端帶來的“假象”
端到端技術(shù)到來讓業(yè)內(nèi)“去高精地圖”的底氣達(dá)到高潮。2023年,小鵬汽車率先提出“全國都能開,有路就能開”的口號。隨后,華為也迅速跟進(jìn),提出只要有導(dǎo)航地圖的地方都能開。今天,幾乎所有頭部車企在宣傳標(biāo)語上都實現(xiàn)了“全國都能開”。
2023年下半年,華為高階智駕在鄉(xiāng)間小道絲滑穿行的小視頻在網(wǎng)絡(luò)瘋傳。彼時端到端能力已經(jīng)在發(fā)揮作用,無圖智駕能力得到落地驗證。這也讓車企們堅信,脫離高精地圖,智駕的表現(xiàn)更加得心應(yīng)手。
何小鵬甚至激進(jìn)地表示,未來不上端到端和大模型的車企將會很快出局?!秷A周智行》粗略統(tǒng)計,截至目前,已經(jīng)有超過20+頭部車企和智駕公司布局端到端方案。
然而,端到端極高的上限能力幾乎“騙了”所有人,讓大家很容易忽視其下限也低的既定事實。
仔細(xì)分析會發(fā)現(xiàn),事情并沒有表面看到的那么簡單。自動駕駛技術(shù)的本質(zhì)是“輸入信息的有效性+模型特征提取的高效性。”
前者由傳感器數(shù)量和模態(tài)決定。端到端網(wǎng)絡(luò)結(jié)構(gòu)下,特征提取能力由訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)據(jù)場景覆蓋決定。但傳感器實時探測數(shù)據(jù),具有探測距離、分辨率、動態(tài)范圍等性能約束,及光照、擁堵、遮擋及信號丟失等場景約束。這就很難保證實時感知信息的準(zhǔn)確性。
智駕系統(tǒng)一般是先在云端離線訓(xùn)練模型,然后再下放到車端。但是在智駕車放量數(shù)據(jù)回傳接管場景前,離線模型學(xué)習(xí)到的都是大量的常規(guī)數(shù)據(jù),異常場景所需要的先驗信息少。
如果要大批量量產(chǎn),又有不同城市規(guī)則及更多復(fù)雜場景的大量場景需要模型覆蓋。
離線訓(xùn)練數(shù)據(jù),實時感知與復(fù)雜場景數(shù)據(jù)都無法保證。這就使得端到端的上限提升的同時,下限也更低了。
而上文提到的無圖智駕能力就是一個典型的“假象”。鄉(xiāng)間小道屬于低速,小范圍,拓?fù)浜唵螆鼍?。這些場景下,OCC很容易構(gòu)建出精確的3D語義空間,同時簡單車道及路網(wǎng)的軌跡預(yù)測更準(zhǔn)確,加上被限定在局部小范圍,他車軌跡干擾小,路徑規(guī)劃就相對簡單。不僅如此,低速進(jìn)一步降低了系統(tǒng)延遲,帶來更好的路徑規(guī)劃時空精度,有點像靜態(tài)泊車場景??雌饋砗孟窠鉀Q了無圖帶來的精度問題,一旦場景復(fù)雜度提升,速度提升,無圖端到端的表現(xiàn)就需要重新評估。
換言之,低速場景的表現(xiàn)并不能作為車企脫離高精地圖能夠?qū)崿F(xiàn)更好智駕的佐證。
端到端需要行業(yè)重新評估智駕地圖的價值
喧鬧之下,Momenta創(chuàng)始人曹旭東,地平線創(chuàng)始人余凱都曾對行業(yè)發(fā)出過警惕,端到端上限高,但下限也低,尤其one model屬于一體化端到端架構(gòu),屬于典型的黑盒方案,具有不可解釋性,在安全上存在極大的漏洞。
我們先來看這樣一個事實,即便在端到端技術(shù)架構(gòu)下,頭部車企的智駕產(chǎn)品今天依然面臨很多問題,包括但不限于“進(jìn)出環(huán)島與連續(xù)變道、環(huán)島識別成丁字路口錯誤降速、中間車道異常掉頭、轉(zhuǎn)彎時壓線侵入非機(jī)動車道、掉頭時路線選擇錯誤侵入導(dǎo)流區(qū)進(jìn)入對向車道逆行、左轉(zhuǎn)紅燈未識別或無車道級拓?fù)潢J燈掉頭、出隧道后多種類型道路的匯出場景走錯道路”。
根本原因在于,這些場景都是采用SD地圖與BEV感知融合來呈現(xiàn)道路規(guī)則和拓?fù)潢P(guān)系,無法實現(xiàn)準(zhǔn)確的感知推理。需要具有時空屬性的先驗信息給予支撐,端到端無法依靠有限的離線訓(xùn)練能力推算出來這些東西。同時,這也需要模型具有極強(qiáng)的泛化能力,而模型訓(xùn)練主要受制于離線訓(xùn)練數(shù)據(jù)的質(zhì)量和分布無法實現(xiàn)這些效果。
于是,朗歌科技副總經(jīng)理李戰(zhàn)斌得出這樣一個結(jié)論,無圖端到端技術(shù)給車企帶來的是一種過渡性優(yōu)勢,這種優(yōu)勢會在25年上半年消退。而要繼續(xù)提升用戶的智駕體驗,具有車道級拓?fù)浜蛯傩缘闹邱{地圖高質(zhì)量數(shù)據(jù)會成為競爭關(guān)鍵。
解題的關(guān)鍵就在于智駕地圖,智駕地圖擁有高質(zhì)量的時空先驗信息,通過embedding(嵌入式)方式進(jìn)入Transformer,增強(qiáng)端到端的感知預(yù)測能力。它可以向大模型輸入實例化的場景提示信息,感知得到地圖的時空實例化的注意力增強(qiáng),實時增強(qiáng)模型輸出更為準(zhǔn)確和全局最優(yōu)的智駕規(guī)控信息。
智駕地圖不僅可以作為真值離線訓(xùn)練模型,也可以作為仿真地圖,生成4D訓(xùn)練樣本,更可以作為前融合的時空先驗知識,提升端到端的在線推理能力。智駕地圖作為先驗知識輸入Transformer后,通過embedding,地圖數(shù)據(jù)方式以Q,K,V輸入到Cross attention(交叉注意力),作為一種模態(tài),通過attention來增強(qiáng)端到端自動駕駛的感知、規(guī)控及安全兜底網(wǎng)絡(luò)或策略。
按照歷史的經(jīng)驗回溯,更能清楚地發(fā)現(xiàn)其中存在的問題。為了提升智駕體驗,整個行業(yè)經(jīng)歷了兩次大的算法升維。
第一次是從單目感知與多模塊的規(guī)則化到分階段的模型化,實現(xiàn)了經(jīng)驗驅(qū)動到海量數(shù)據(jù)驅(qū)動的模型開發(fā)范式的變化,引入了大量的先驗數(shù)據(jù)學(xué)習(xí),及多目BEV與OCC的出現(xiàn),實時感知信息量也增大;這個階段大概是在2023年以前。簡單說來,就是最早期的rule-based到后來的數(shù)據(jù)驅(qū)動。
接下來就是2023年開啟的分段式模塊化到漸進(jìn)式端到端及雙系統(tǒng)范式,系統(tǒng)一采用一體化模型,主要信息來源是BEV特征的時序化及anchor(錨點)實例的初始化輸入,系統(tǒng)2更多的在于復(fù)雜場景的領(lǐng)航引導(dǎo)信息,相比系統(tǒng)一的效果明顯減弱。系統(tǒng)1的信息丟失率減少,上限得到提升。兩者都需要實時推理,這又回到了上文提到的問題,感知信息不準(zhǔn)確對推理結(jié)果造成的影響。導(dǎo)致端到端的下限很低。
有意思的是,兩次技術(shù)革命的發(fā)起者都是特斯拉,然后國內(nèi)車企迅速將這些技術(shù)推向高峰。
外界知道雙系統(tǒng)最早是理想汽車上半年首次提出來,但從效果上看,雙系統(tǒng)加持下,理想的智駕依然存在很多問題。
在整個行業(yè)進(jìn)入大算力芯片和端到端/世界模型的背景下,如果傳感器輸入的信息不足,那么欠定/非線性情況凸顯,無效解大量增加,導(dǎo)致端到端的下限很低,再增大芯片算力與模型復(fù)雜度是無效浪費(fèi)。這時候要做的就是提高輸入環(huán)境信息的有效性。智駕地圖就是不二之選。
然而,一個矛盾的問題擺在圖商們面前,傳統(tǒng)智駕方案在使用地圖時需要將逐個地圖元素通過規(guī)則開發(fā)的方式應(yīng)用在路徑規(guī)劃等模塊中,而端到端最大的特點就是降低規(guī)則開發(fā)的訴求。
這里我們來看看朗歌科技在實戰(zhàn)中找到的經(jīng)驗。今年6月,CVPR 2024國際自動駕駛挑戰(zhàn)賽中,朗歌科技在無圖智駕賽道奪冠,擊敗來自10個國家和地區(qū)的120支隊伍,斬獲創(chuàng)新獎和全國冠軍獎。
傳統(tǒng)基于規(guī)則和小模型的后融合方式在使用智駕地圖時存在感知和地圖兩者分別錯誤或缺失時信誰的問題。而在端到端時期,智駕地圖可以以非監(jiān)督信息嵌入,作為query,或者key與value,這兩種方式輸入。
我們先來看第一種,SD地圖特征作為key與value輸入。例如朗歌參賽的LG-map多模態(tài)方案,在有 SD 地圖的場景下,LGMap 沿著 SD 中的每個矢量均勻采樣固定數(shù)量的點,經(jīng)過正弦位置編碼之后,使用 BEVFormer 的方式,將 bev query 分別對 SD 地圖特征和來自視覺輸入的特征做交叉注意力。SD地圖特征作為key和value向量,通過交叉注意力計算,和相機(jī)特征融合,得到最終的BEV特征。之所以這樣編碼,在于SD信息為道路信息,缺少車道級內(nèi)容,作為檢索信息來增強(qiáng)感知更為合適。
第二種,智駕地圖特征作為初始化query輸入。輸入智駕輕地圖HQ,每個智駕地圖元素編碼成一個query,即query的值初始化為地圖元素的幾何位置和類別,與bev feature通過交叉注意力網(wǎng)絡(luò)來實現(xiàn)多模態(tài)信息的融合。這種“智駕地圖+智駕端到端前融合”輸入方式能夠帶來幾個明顯的好處:
1、將地圖先驗信息以非規(guī)則的模型化方式輸入到網(wǎng)絡(luò)中,與端到端模型降低規(guī)則開發(fā)的訴求一致;
2、基于地圖增強(qiáng)的query與BEV感知特征,端到端和漸進(jìn)式端到端都獲得先驗知識的增強(qiáng),提高模型下限和智駕用戶體驗;
3、更新后的query通過map decoder,輸出前融合后的局部更新地圖,通過數(shù)據(jù)閉環(huán)回傳,提升云端眾包建圖質(zhì)量和效率,促進(jìn)車云協(xié)同的周天智能體系飛輪的快速運(yùn)轉(zhuǎn)。
余凱和曹旭東都有一個基本共識,城市NOA會在3-5年內(nèi)迎來大規(guī)模爆發(fā),端到端是一個很好的抓手,但要保證智駕的安全和體驗有質(zhì)的飛躍,行業(yè)需要重新評估智駕地圖的價值。