讓元戎CEO周光感到非常興奮的是,在市場(chǎng)如此艱難的情況下,元戎拿到了一筆巨大的融資,并且這是一筆非政府的資金,而是來(lái)自產(chǎn)業(yè)鏈。這證明了元戎的技術(shù)實(shí)力得到了行業(yè)認(rèn)可。
按照周光的說(shuō)法,自動(dòng)駕駛技術(shù)發(fā)展至今,經(jīng)過(guò)了3個(gè)比較大的階段,前融合,“無(wú)圖”城市NOA,端到端,而這些,元戎都是最早在國(guó)內(nèi)提出來(lái)并且付諸行動(dòng)的。
元戎能夠拿到頭部主機(jī)廠的輸血,很大程度上得益于其在技術(shù)路線上的激進(jìn)策略。今天的智駕技術(shù)正在逐步趨于收斂。元戎的判斷是否正確?與整個(gè)行業(yè)對(duì)比,元戎的技術(shù)又處于怎樣的水平?
目前整個(gè)行業(yè)提得最多的就是端到端架構(gòu),主流方式有3種:一種是分段式,這是大部分車企采取的思路;另一種是交集式,智駕系統(tǒng)包含3個(gè)網(wǎng)絡(luò),感知、規(guī)控和安全規(guī)則,但彼此之間相互有交集,代表車企是小鵬、華為;另一個(gè)是一段式網(wǎng)絡(luò),代表車企是元戎和Momenta。(至少在公開(kāi)宣傳資料里,只有這兩家的傳播口徑是一段式端到端)
按照元戎的說(shuō)法,它的一段式端到端架構(gòu)已經(jīng)上車,目前正在預(yù)研VLA模型,即Vision Language Action Model,視覺(jué)語(yǔ)言動(dòng)作模型,屬于端到端2.0版本,是周光于2024年9月30日汽車百人會(huì)GIV上正式提出。元戎啟行的VLA系統(tǒng)可以連接視覺(jué)、語(yǔ)言、動(dòng)作,能識(shí)別和描述道路環(huán)境、交通標(biāo)志、道路參與者等,理解交通場(chǎng)景中復(fù)雜的交互事件、隱藏的語(yǔ)義信息和邏輯推理,即便碰到罕見(jiàn)路標(biāo)跟邊緣場(chǎng)景,系統(tǒng)也能輕松應(yīng)對(duì)。
元戎的VLA有三個(gè)優(yōu)勢(shì)。
1、VLA采用多模態(tài)訓(xùn)練,除了視頻數(shù)據(jù)訓(xùn)練,元戎還引入了語(yǔ)言模態(tài)訓(xùn)練、行為模態(tài)訓(xùn)練。VLA模型可以通過(guò)預(yù)訓(xùn)練的方式,從大量的未批注數(shù)據(jù)中進(jìn)行訓(xùn)練,學(xué)習(xí)語(yǔ)料的通用特征,擁有更多常識(shí)。
2、VLA還具有場(chǎng)景理解能力,能通過(guò)語(yǔ)音、文字(Language)形式對(duì)自己的駕駛行為和推理進(jìn)行描述。技術(shù)人員可以了解系統(tǒng)的決策邏輯,就可以更快地訓(xùn)練它們。決策過(guò)程透明了,也更容易建立大家對(duì)智駕的信心和信任。
3、另一個(gè)就是泛化能力。因?yàn)榧尤肓艘曈X(jué)、語(yǔ)言和動(dòng)作的多模態(tài)模型,VLA模型可提高模型的泛化能力和判斷推理能力。不僅限于汽車,未來(lái),VLA還能移植到機(jī)器人等更多載體上。
基于這一套技術(shù),元戎構(gòu)建了“一體兩翼”的商業(yè)邏輯,具體解釋為,一個(gè)AI系統(tǒng),兩條商業(yè)化落地路徑。其實(shí)就是輔助駕駛和Robotaxi用同一套技術(shù),然后通過(guò)數(shù)據(jù)積累的方式不斷迭代系統(tǒng)能力。
行文到此,接下來(lái)有意思的部分就來(lái)了。下面有3個(gè)爆點(diǎn):
首先是技術(shù)的先進(jìn)性。元戎認(rèn)為目前VLA是最先進(jìn)的技術(shù)架構(gòu)。
VLA這個(gè)名字很熟悉有沒(méi)有?
沒(méi)錯(cuò),和理想今年一直在提的VLM很像,但二者并不是一回事。周光舉了一個(gè)例子,“VLM+端到端”其實(shí)是兩個(gè)人在車?yán)铮率謱W(xué)員和教練。端到端就是學(xué)員,而教練就是所謂的VLM帶著新手學(xué)員開(kāi)車,告訴你怎么走,實(shí)際的駕駛員還是新手學(xué)員。而VLA的邏輯是直接拿掉學(xué)員,讓教練自己開(kāi)。
周光認(rèn)為,VLM是一個(gè)落后的架構(gòu),完全比不上VLA。因?yàn)榧円曈X(jué)的端到端(VLM)缺乏可解釋性,無(wú)法解釋駕駛決策邏輯。碰到潮汐車道、限行時(shí)段等罕見(jiàn)路標(biāo)/邊緣場(chǎng)景難以用常識(shí)理解讀懂,這種情況下很難推理出好的駕駛決策。這是元戎做VLA的原因。
有意思的是,理想自己也認(rèn)可這個(gè)說(shuō)法。根據(jù)《36氪汽車》報(bào)道,理想人士表示:“可以把VLA看成是端到端+VLM的合體?!倍覔?jù)說(shuō)包括理想在內(nèi)的很多車企也在秘密研發(fā)VLA架構(gòu)。
第二,元戎在技術(shù)策略和商業(yè)理念上與特斯拉完全相同。繼侯曉迪,樓天城等技術(shù)大咖質(zhì)疑特斯拉Robotaxi之后,元戎是首個(gè)也是目前唯一一個(gè)在技術(shù)理念上公開(kāi)站隊(duì)特斯拉的企業(yè)。
首先,馬斯克一直在強(qiáng)調(diào)通過(guò)數(shù)據(jù)來(lái)提升自動(dòng)駕駛能力;其次,特斯拉希望用一套技術(shù)來(lái)實(shí)現(xiàn)輔助駕駛和Robotaxi,把輔助駕駛的FSD放在Robotaxi上。
這和元戎提到的“數(shù)據(jù)驅(qū)動(dòng),Robotaxi同源”的理念一致。
重點(diǎn)來(lái)了,侯曉迪,樓天城等人的觀點(diǎn)剛好相反。樓天城認(rèn)為Robotaxi并不是無(wú)腦堆數(shù)據(jù),數(shù)據(jù)達(dá)到了一定上限對(duì)系統(tǒng)反而是累贅;而且樓天城也不認(rèn)為用輔助駕駛思路做得了Robotaxi。他認(rèn)為自動(dòng)駕駛的唯一解是世界模型。
來(lái)看看周光是如何反駁的,他認(rèn)為必須要用AI的方式去做Robotaxi,而不是這種基于模塊化的、基于地圖劃個(gè)區(qū)域去做。2018年,全世界首個(gè)Robotaxi運(yùn)營(yíng),到今天為止,Robotaxi全球的運(yùn)營(yíng)面積可能就是千平方公里,周光認(rèn)為這種運(yùn)營(yíng)沒(méi)有價(jià)值,元戎的運(yùn)營(yíng)模式?jīng)]有區(qū)域限制。
大佬爭(zhēng)論,看客吃瓜,有點(diǎn)意思。
第三,承接上文,今年初周光在中國(guó)電動(dòng)汽車百人會(huì)上diss L4,引發(fā)了不少關(guān)注,被外界稱之為耿直boy。
在最近的溝通會(huì)上,周光再次對(duì)這個(gè)問(wèn)題進(jìn)行了解釋。周光認(rèn)為,元戎目前在進(jìn)行的Robotaxi并不是L4,完全是兩回事。L4更多的是一種技術(shù)路徑的探索,而Robotaxi是一種商業(yè)模式的探索,二者并不是一回事。
由于Waymo等企業(yè)的引導(dǎo),大家都把Robotaxi等同于L4。事實(shí)上,Waymo確實(shí)在以L4的方式做Robotaxi,但Robotaxi卻不止L4一種方式,也可以通過(guò)元戎所謂的AI方式來(lái)做。
周光說(shuō)明年元戎會(huì)把最新的VLA的技術(shù)帶上車,也就是基于Thor的DeepRoute IO(也有消息說(shuō)Thor并沒(méi)有準(zhǔn)備就緒)。按照周光的說(shuō)法,這套系統(tǒng)上來(lái)以后城區(qū)智駕才能真正達(dá)到好用的狀態(tài),現(xiàn)在大家都是嘴炮。預(yù)計(jì)2024年底,至少會(huì)有三款搭載元戎啟行智能駕駛系統(tǒng)的車輛進(jìn)入消費(fèi)者市場(chǎng)。同時(shí),元戎啟行也在積極推進(jìn)與多家主流車企的十余款智能汽車的量產(chǎn)合作。智能駕駛大潮將至,元戎打出了創(chuàng)業(yè)5年來(lái)的蓄力一擊。