在討論這個(gè)問(wèn)題之前我們先來(lái)認(rèn)識(shí)一個(gè)行業(yè)基本誤區(qū)。目前行業(yè)將沒(méi)有激光雷達(dá)的方案統(tǒng)稱為純視覺(jué)方案,但其實(shí)國(guó)內(nèi)很多車企即便沒(méi)有激光雷達(dá),大部分都有毫米波雷達(dá),嚴(yán)格意義上來(lái)說(shuō),應(yīng)該是攝像頭為主的視覺(jué)方案。但特斯拉的純視覺(jué)是只有攝像頭,除了激光雷達(dá),連毫米波雷達(dá)都沒(méi)有,這才是所謂的純視覺(jué)。
這時(shí)候我們?cè)賮?lái)看馬斯克拋棄激光雷達(dá)的原因在哪里。馬斯克的邏輯其實(shí)很簡(jiǎn)單,攝像頭是人的“眼睛”,既然人眼能看清,相機(jī)也能看清。但是攝像頭存在的基本事實(shí)無(wú)法忽視,缺少深度信息的攝像頭天然就存在“視覺(jué)欺騙”的缺陷。比如把白色車輛識(shí)別成白云,將路邊的廣告牌上內(nèi)容識(shí)別為汽車。
問(wèn)題出在哪里,來(lái)看看前特斯拉工程師的回答:
“多個(gè)信息流確實(shí)能提供更多的信息,但是你要解答一個(gè)問(wèn)題,難道攝像頭本身的信息不夠嗎?還是算法挖掘信息的算法能力不足?比如說(shuō)緊急剎車、在城市道路的時(shí)候有頓挫感,其實(shí)根源就是它對(duì)周圍物體的速度估計(jì)、它的角度估計(jì)不足,如果是這個(gè)原因,那確實(shí)激光雷達(dá)要比攝像頭好很多,因?yàn)樗軌蚪o你提供更直接的信息,就是攝像頭本身其實(shí)也給你信息了,只不過(guò)我們的算法不足夠好,能夠挖掘出這樣的信息?!保ㄕ浴豆韫?01》)
這里面存在兩個(gè)問(wèn)題:在智駕系統(tǒng)里,攝像頭給的信息夠不夠?算法能不能很好地挖掘并處理這些信息?
上述工程師的觀點(diǎn)顯然非常明確,對(duì)于第一個(gè)問(wèn)題,他認(rèn)為并不是攝像頭收集到的信息不夠,而是算法的能力不行,沒(méi)有很好地挖掘和處理攝像頭收集到的信息,也就是第二個(gè)問(wèn)題的答案。他的論證依據(jù)是,特斯拉V12端到端架構(gòu)上來(lái)以后這些問(wèn)題明顯改善,也就是大家常說(shuō)的端到端的上限提高了。雖然現(xiàn)在V12依然存在很多問(wèn)題,但他認(rèn)為這些問(wèn)題并非傳感器不足導(dǎo)致的,核心問(wèn)題依然出在算法上。
至于為什么拋棄雷達(dá)?我們可以來(lái)看一下特斯拉拿掉毫米波雷達(dá)的案例。
特斯拉之前的自動(dòng)駕駛系統(tǒng)有毫米波雷達(dá),然而傳感器融合其實(shí)是一個(gè)很復(fù)雜的算法,特斯拉工程師發(fā)現(xiàn),毫米波雷達(dá)在智駕里的作用小于攝像頭,但是加上毫米波雷達(dá)就增加了算法的復(fù)雜度,甚至可能帶來(lái)一些信息干擾導(dǎo)致系統(tǒng)誤判。如果不能實(shí)現(xiàn)1+1>2的效果,傳感器越多反而是累贅。
特斯拉的實(shí)踐似乎將了雷達(dá)企業(yè)一軍,來(lái)看激光雷達(dá)派是如何反駁的。
現(xiàn)在不管是Cruise、Waymo等主流L4公司都是激光雷達(dá)為主。以Waymo的Robotaxi來(lái)看,它的傳感器配置可以說(shuō)是武裝到了牙齒,裝了 5 顆激光雷達(dá), 30 顆攝像頭,6 顆毫米波雷達(dá)。僅攝像頭就有好幾類,一類是正常攝像頭,一類是專門提升夜視能力的攝像頭,有看 LED 燈的,有熱成像的,還有盲區(qū)攝像頭,外加紅外線的閃光燈。一共五類相機(jī)。
他們的理由是,激光雷達(dá)可以直接拿到位置信息,對(duì)于算法本身的要求相對(duì)會(huì)比較低一些,并且很多可以直接通過(guò)傳感器來(lái)拿到這些3D的信息,提升系統(tǒng)的安全性和魯棒性,解決很多長(zhǎng)尾問(wèn)題會(huì)更輕松。
攝像頭需要大量的訓(xùn)練數(shù)據(jù)去學(xué)出缺乏3D的信息,這樣的話缺乏監(jiān)管,因?yàn)闆](méi)有一個(gè)參照物,很難去拿到一個(gè)現(xiàn)實(shí)中的一個(gè)ground truth(真值數(shù)據(jù)),如果完全通過(guò)這種半監(jiān)督的學(xué)習(xí)方法,想要達(dá)到系統(tǒng)的一個(gè)安全性難度很高。
馬斯克將攝像頭等同于人的研究,但在很多L4技術(shù)人員看來(lái),攝像頭完全不能跟人眼相提并論。
首先,人眼的上限非常高,像素能夠達(dá)到5億,并且能夠自動(dòng)聚焦收縮,但是攝像頭是人為設(shè)計(jì)出來(lái)的產(chǎn)物,性能參數(shù),探測(cè)距離都有其局限性。目前像素最高的智駕視覺(jué)相機(jī)像素也才800萬(wàn),跟人眼完全不是一個(gè)數(shù)量級(jí)。
其二,在可視范圍內(nèi),人眼只需關(guān)注與自己駕駛行為相關(guān)的信息,而智駕相機(jī)需要關(guān)注可視范圍內(nèi)的所有元素,隨時(shí)排查可能的風(fēng)險(xiǎn)。這樣增加了相機(jī)本身和算法的“工作量”。這些問(wèn)題可以通過(guò)激光雷達(dá)來(lái)彌補(bǔ)。
一個(gè)有意思的事情是,雖然很多L4從業(yè)者并不認(rèn)可特斯拉去掉激光雷達(dá)的說(shuō)法,但是他們也認(rèn)為,信息并不是越多越好,因?yàn)樘囝~外的無(wú)效信息會(huì)加劇算法的負(fù)擔(dān)。
這一點(diǎn)讓視覺(jué)派有了“可乘之機(jī)”,試圖去找到激光雷達(dá)自身的“漏洞”。他們認(rèn)為,激光雷達(dá)是通過(guò)發(fā)出光束來(lái)測(cè)距,雨雪天氣會(huì)影響激光反射,這些對(duì)智駕就是干擾信息,增加了算法的壓力。
激光雷達(dá)派對(duì)于上述觀點(diǎn)反駁稱,現(xiàn)在的算法技術(shù)已經(jīng)非常成熟,激光雷達(dá)的降噪抗震動(dòng)等問(wèn)題并不會(huì)對(duì)系統(tǒng)產(chǎn)生太大的影響,激光雷達(dá)能夠產(chǎn)生的價(jià)值遠(yuǎn)大于它的問(wèn)題。
很多人關(guān)注到一個(gè)事情,今年激光雷達(dá)制造商Luminar在第一季度財(cái)報(bào)中透露特斯拉的訂單達(dá)到了10%,是其最大客戶。
對(duì)此特斯拉工程師解釋是為了讓激光雷達(dá)在測(cè)試車上采集訓(xùn)練神經(jīng)網(wǎng)絡(luò)的ground truth(真值數(shù)據(jù)),因?yàn)槿斯o(wú)法標(biāo)注物體距離,必須要用專門的傳感器來(lái)標(biāo)注。
在兩方battle之外,我們來(lái)看一些基本事實(shí):
目前全球知名的L4公司清一色都是激光雷達(dá)的客戶,包括國(guó)內(nèi)的百度,文遠(yuǎn),小馬,國(guó)外的Cruise、Waymo等。至少在L4公司的決策里,激光雷達(dá)并不是備選項(xiàng),而是必選項(xiàng)。
有意思的是,純視覺(jué)和激光雷達(dá)之間也在相互滲透。比如一直堅(jiān)持雙目視覺(jué)的卓馭科技(原大疆車載)年初發(fā)布了激目傳感器,把激光雷達(dá)和攝像頭融合在一起形成一個(gè)全新的傳感器,并計(jì)劃于2026年上車。而蔚來(lái),小鵬,華為等原來(lái)在激光雷達(dá)領(lǐng)域激進(jìn)的企業(yè)也都在今年推出了純視覺(jué)方案,很大一部分原因得益于軟件算法的進(jìn)步。在L2企業(yè)看來(lái),上不上激光雷達(dá)更多是商業(yè)上的考量。
值得注意的是,最近美國(guó)聯(lián)邦政府對(duì)特斯拉FSD展開(kāi)了調(diào)查,理由是能見(jiàn)度降低情況下的檢測(cè)和響應(yīng)能力,有分析將矛頭指向了沒(méi)有激光雷達(dá)導(dǎo)致信息密度較低。
對(duì)于馬斯克來(lái)說(shuō),自證的辦法非常簡(jiǎn)單,就是其最近新推出的Robotaxi,也采用沒(méi)有激光雷達(dá)的純視覺(jué)方案,如果馬斯克真能通過(guò)純視覺(jué)搞定了L4場(chǎng)景,那恐怕所有人都會(huì)閉嘴了。但這一天真的會(huì)來(lái)嗎,到底是什么時(shí)候,沒(méi)人說(shuō)得清楚。