智駕VLA 陣營，理想、元戎雙強(qiáng)卡位

第一電動(dòng)大牛作者汽車之心 2025-06-17 14:53

上半年智駕界的動(dòng)作，無非兩類。

一路玩家向上進(jìn)擊 L3，尊界 S800 會(huì)搭載 ADS4 版本實(shí)現(xiàn) L3，小鵬也將發(fā)布的 G7 稱為「首個(gè) L3 級(jí) AI 汽車?！?/p>

另一路玩家則向外拓展智駕邊界，元戎和理想陸續(xù)發(fā)布了語音控制智駕、理解路牌等需要系統(tǒng)具備長推理思維鏈的新功能。

水面之下其實(shí)是一場關(guān)于技術(shù)路線的分歧。

前一派認(rèn)為未來通往完全自動(dòng)駕駛的技術(shù)不是 VLA，而是世界模型。理由包括：泛仿真會(huì)代替 VLA 登上 C 位，而自然語言的解釋能力并非智駕的核心技術(shù)等等。

另一派則堅(jiān)定認(rèn)為下一代智駕還是 VLA。

元戎啟行 CEO 周光最近在火山引擎 Force 大會(huì)上直言「VLA 是實(shí)現(xiàn)完全自動(dòng)駕駛的必經(jīng)之路?！诡愃频兀?a class="link2" href="http://ewshbmdt.cn/tag/李想" target="_blank">李想也堅(jiān)定認(rèn)為「必須使用 VLA 才能實(shí)現(xiàn) L4 自動(dòng)駕駛。」

VLA 路線被重新推至風(fēng)口，但這一次 VLA 需要解決一些更難的問題。

01、剩下的問題，都是最難的

目前主流車企、智駕玩家都進(jìn)入到了全國都能開，高速、城區(qū)都達(dá)到了可用的狀態(tài)。

但從可用再到愛用、好用，差距很大。

本質(zhì)上是因?yàn)楹芏嗤婕疫€處于兩段式端到端系統(tǒng)中，周光把這稱為端到端 1.0 版本，而 VLA 則是端到端 2.0 版本，核心是要打造防御型駕駛能力。

在這個(gè)成熟度比較高的智駕市場中，剩下往往是最難解決的問題。

第一類問題就是黑盒問題。

在端到端的「黑盒子」模式中，模型行為缺乏可解釋性。

這種不可解釋性會(huì)導(dǎo)致兩個(gè)問題，一方面輔助駕駛系統(tǒng)可能會(huì)突然不知緣由「抽風(fēng)」，做一些違背正常司機(jī)駕駛的決策，比如突然加速等，這種反常識(shí)決策會(huì)讓用戶產(chǎn)生不信任感。

另一個(gè)層面就更危險(xiǎn)了，系統(tǒng)遇到不能處理的場景緊急退出，此時(shí)如果接管不及時(shí)，就會(huì)導(dǎo)致事故發(fā)生。

第二類問題是防御型駕駛不夠。

防御型駕駛在于能不能預(yù)判路況，這也是新手司機(jī)跟老司機(jī)的區(qū)別。

最典型的就是高架橋的橋墩盲區(qū)。匝道匯入主路時(shí)，一側(cè)的橋墩會(huì)遮住司機(jī)大半個(gè)視野，新手司機(jī)可能察覺不到，但老司機(jī)會(huì)提前減速觀察，避免突然出現(xiàn)車輛。

交管部門數(shù)據(jù)顯示，在眾多交通傷亡事故中，因內(nèi)輪差和盲區(qū)引發(fā)的事故占比達(dá)到 70% 以上。

現(xiàn)在多數(shù)智駕遇到鬼探頭只能做到急剎避讓，但防御型駕駛是要能提前結(jié)合場景，預(yù)知鬼探頭風(fēng)險(xiǎn)提前減速。

第三類問題是人機(jī)交互太過于機(jī)械化。

大多數(shù)車輛進(jìn)入輔助駕駛狀態(tài)后，用戶決策僅限于「不接管」和「接管」，沒有專屬用戶駕駛風(fēng)格的定制化調(diào)節(jié)，這也是系統(tǒng)更容易決策偏離用戶預(yù)期的原因之一。

歸根結(jié)底，整個(gè)行業(yè)還沒有徹底解決用戶安心感的問題。

現(xiàn)在業(yè)內(nèi)針對(duì)提升智駕性能有兩個(gè)方向：一種是視覺-語言-動(dòng)作模型 VLA 路線，它在感知與動(dòng)作輸出之間引入了語言作為中介，通過三者融合來解決端到端泛化和可解釋性的問題，進(jìn)而提升系統(tǒng)安全感。

因此，以理想、元戎為代表的 VLA 路線，是端到端 2.0 版本，側(cè)重車端，需要運(yùn)用語言模型的能力。

第一步：在 input 輸入層輸入視覺（BEV 圖像+點(diǎn)云）和文本輸入（語言轉(zhuǎn)文本的指令）；
第二步：由編碼器把文本和圖像、點(diǎn)云轉(zhuǎn)換為特征向量和語義向量；
第三步：將視覺和文本兩種模態(tài)信息融合成統(tǒng)一的表征，VLA 就能同時(shí)理解圖像和文本指令；
第四步：在 output 輸出層，解碼后系統(tǒng)輸出控車軌跡和人類可讀、可理解的思考過程。

另一種是世界模型路線。

本質(zhì)是在云端建造一座工廠，通過引入真實(shí)數(shù)據(jù)做場景泛化，形成生成大量虛擬駕駛場景來訓(xùn)練、評(píng)價(jià)系統(tǒng)，進(jìn)而提升系統(tǒng)能力。以小鵬、華為、蔚來代表的世界模型路線，更側(cè)重云端，會(huì)消耗更多儲(chǔ)存和算力。

這兩種路線并不矛盾。

VLA 路線也結(jié)合了部分與駕駛數(shù)據(jù)相關(guān)的世界模型。

比如，李想提出 VLA 可以拆解為預(yù)訓(xùn)練、后訓(xùn)練和強(qiáng)化學(xué)習(xí)三個(gè)層面。強(qiáng)化學(xué)習(xí)中最重要的一步就是在世界模型里閉環(huán)學(xué)習(xí)，引入舒適度、碰撞、交通規(guī)則等規(guī)則來打磨、反饋，讓 VLA 比人類開的更好。

因此兩種路線只是側(cè)重點(diǎn)的不同。

周光向汽車之心透露他們押注 VLA 的原因之一：元戎要運(yùn)用語言模型，并不只停留在表面的語音功能，而是更看中以語言為媒介的推理能力，對(duì)世界常識(shí)有更全面的認(rèn)知。

02、VLA 第一陣營：理想和元戎

VLA 動(dòng)靜最大的有兩家，一家理想，一家元戎。

兩個(gè)玩家的共性就是堅(jiān)定押注 VLA。

早在今年 1 月，元戎啟行就對(duì)外劇透了 VLA 模型，周光認(rèn)為自動(dòng)駕駛會(huì)跟著語言模型的水平走，而大語言模型發(fā)展會(huì)經(jīng)歷小學(xué)生—大學(xué)生—垂類專家三個(gè)階段。

對(duì)應(yīng)的傳統(tǒng)規(guī)則模型就像是弱專家系統(tǒng)，但當(dāng)智駕玩家都開始利用端到端解決問題，就進(jìn)入了 AI 的「通才系統(tǒng)」。

類似的，今年 5 月份李想也講 AI 汽車發(fā)展，類似比為昆蟲、哺乳動(dòng)物和人類三階段，分別對(duì)應(yīng)規(guī)則算法、端到端+VLM、VLA 司機(jī)大模型。

VLA 技術(shù)路線下開發(fā)出的功能也十分相似。

兩個(gè)玩家都重新定義了「語音控車」。

此前，語音控車指通過語音喚醒車機(jī)、控制座艙?，F(xiàn)在元戎和理想將語音控車升級(jí)——用戶能在車輛在輔助駕駛中，語音控制車輛的動(dòng)作、車速、車道選擇等，甚至還釋放了會(huì)豪車識(shí)別功能。

如果前車屬于豪車，智駕系統(tǒng)就會(huì)更加謹(jǐn)慎。語音控車的背后就是 VLA 系統(tǒng)對(duì)場景深刻精準(zhǔn)的理解能力。

元戎和理想最大的區(qū)別，在于重心不同。

理想作為車企更注重智駕和智艙的平衡，而元戎作為智駕供應(yīng)商，主要側(cè)重在智駕上。

除了語音控車之外，元戎啟行還釋放了空間語義、異形障礙物識(shí)別、文字類引導(dǎo)牌理解三大功能。

空間語義功能，即 VLA 可以解決盲區(qū)場景設(shè)計(jì)的問題。

這就相當(dāng)于為系統(tǒng)裝上透視眼，預(yù)判現(xiàn)實(shí)世界的交通盲區(qū)。

周光展示了一張動(dòng)圖，車輛在右側(cè)行駛，右側(cè)有公交車，為了通行效率變道至左側(cè)，標(biāo)志牌上提示「注意橫穿，減速慢行」，車輛在看到公交車微微剎車后，也跟著減速慢行。

這背后的邏輯是車輛理解了指示牌上文字信息——看到公交車在人行道前突然減速——系統(tǒng)推理盲區(qū)有行人橫穿——最終提前減速、謹(jǐn)慎通行。

之所以能提前預(yù)判行人穿行，就取決于 VLA 的長思維鏈。此前端到端 1.0 版本只能推測幾秒之內(nèi)的路況，VLA 思維鏈更長，推理能力更長更遠(yuǎn)。

在異形障礙物識(shí)別上，元戎 VLA 模型的能力更強(qiáng)。

上一代端到端的識(shí)別異形障礙物屬于智駕的算法長尾問題，過去經(jīng)常被歸類為 1% 的極端路況。

但是依靠 VLA 模型，即便碰上三輪上堆滿形狀、材質(zhì)各異的貨物，仍然能識(shí)別出它的本體是一輛三輪車。

最后，VLA 也可以加強(qiáng)系統(tǒng)對(duì)文字類引導(dǎo)牌的理解能力。

一個(gè)文盲想要開好車很難，元戎啟行的 VLA 模型能夠識(shí)別理解各種圖形、文字類路牌信息，按照路牌引導(dǎo)內(nèi)容行駛。

從元戎釋放的測試動(dòng)圖來看，即便在是復(fù)雜的八車道路口，系統(tǒng)仍然能理解路牌信息，選擇正確道路行駛。

以上這四類功能都隱約透露出元戎的野心——用 VLA 打造出能防御型駕駛的 AI 司機(jī)。

據(jù)悉，元戎的 VLA 模型將會(huì)在第三季度量產(chǎn)上車 5 款車型，接下來智駕是否具備更長遠(yuǎn)的思維、推測能力，VLA 能否大規(guī)模量產(chǎn)上車，也是下半年智駕玩家們能否進(jìn)入 VLA 第一梯隊(duì)的關(guān)鍵。

03、極致的 VLA，通用人工智能的「神之一手」

VLA 不僅可以通向極致的智駕，同時(shí)極致的 VLA，也能造出物理世界的通用人工智能。

9 年前 AlphaGo 和李世石決戰(zhàn)的第二局中，將第 37 手落在了棋盤第五線，起初大多數(shù)專家認(rèn)為 AlphaGo 失誤了。

因?yàn)楹苌儆懈叨挝贿x手會(huì)開局就如此激進(jìn)，但正是看似充滿不確定性的 37 手棋，脫離了人類圍棋選手的傳統(tǒng)思維模式，走出了 AI 最獨(dú)特的一步。

本質(zhì)上就是因?yàn)?AlphaGo 每一步都能推演得到 150 手以后的格局。類似地，擁有長思維鏈能力的 VLA，很可能是通用人工智能的「神之一手」。

但要想用 VLA 打造物理世界的通用人工智能，必須完走三個(gè)技術(shù)階梯。

第一層樓梯是基本功，要完整的積累智駕數(shù)據(jù)，開啟量產(chǎn)交付。

2024 年是元戎的量產(chǎn)元年，元戎除最核心的落地項(xiàng)目藍(lán)山全新智駕版，還開啟了長城高山、smart 精靈 5 以及海外車型的量產(chǎn)項(xiàng)目，其中，藍(lán)山全新智駕版上市 2 個(gè)月城區(qū)智駕激活量就超過了 1.3 萬輛，打造出小爆款。

第二層樓梯，是用 VLA 技術(shù)占領(lǐng)時(shí)間和量產(chǎn)高地。

從時(shí)間線來看，元戎是業(yè)內(nèi)最早將 VLA 概念引入智駕領(lǐng)域的玩家。在量產(chǎn)上，元戎正在與浙江某頭部車企洽談項(xiàng)目，預(yù)計(jì)今年元戎啟行累計(jì)出貨量將會(huì)達(dá)到 20 萬輛。

第三層樓梯，就是利用 VLA 模型復(fù)制到所有可移動(dòng)的物體上，打造物理世界人工智能 RoadAGI。

通向 RoadAGI 的技術(shù)，依舊是 VLA。

首先，VLA 的技術(shù)概念本身就源自于機(jī)器人界。2023 年谷歌在其發(fā)布的 RT2 中提出 VLA 模型，這也是全球第一個(gè)控制機(jī)器人的 VLA 模型，不僅能讓機(jī)器人解讀人類的復(fù)雜指令，還能看懂眼前的物體，并按照指令采取動(dòng)作。

VLA 被公認(rèn)為是機(jī)器人編程的重大飛躍，一年后周光就將 VLA 遷移到智能駕駛，現(xiàn)在元戎利用 VLA 模型開發(fā)的四大功能，也在間接證明智駕和機(jī)器人的底層技術(shù)可以共享。

其次，VLA 具備四個(gè)核心特性在更大范圍的物理世界同樣適用。

架構(gòu)繼承：讓 VLA 可以直接復(fù)用成熟的基座模型架構(gòu)，不用重新造輪子；
動(dòng)作 Token 化：可以把物理世界的一系列行為表述為語言進(jìn)行推理；
端到端學(xué)習(xí)：感知、推理、控制一體化，減少了信息傳遞損失；
可泛化性：能讓系統(tǒng)具備舉一反三的能力；

今年年初，元戎啟行就曾在英偉達(dá) GTC 大會(huì)上小試牛刀，公布過 RoadAGI 最新進(jìn)展。

目前，通過 Spark 1.0 元戎已經(jīng)可以實(shí)現(xiàn)配送的閉環(huán)：一臺(tái)移動(dòng)機(jī)器人可以自動(dòng)識(shí)別店鋪、紅綠燈、過閘機(jī)、摁電梯，最終把貨物從店鋪送到辦公室。

跟傳統(tǒng)無人車的區(qū)別是，這臺(tái)移動(dòng)機(jī)器人行走不依賴高精地圖，且擁有對(duì)周邊環(huán)境的理解能力。相比之下，目前大多數(shù)機(jī)器人都是基于規(guī)則做遙操控制，而元戎的思路是做機(jī)器人的規(guī)劃和大腦，用技術(shù)解決智能體的移動(dòng)問題。

接下來，元戎啟行將和火山引擎，基于豆包大模型，共同研發(fā) VLA 等前瞻技術(shù)，打造物理世界的 Agent。

就像周光所言，智能汽車是人類首個(gè)達(dá)到千萬級(jí)數(shù)據(jù)體量的機(jī)器人。通向 RoadAGI 不止需要極致的 VLA，還取決于前期的數(shù)據(jù)、工程經(jīng)驗(yàn)積累。

只有在第一、第二層階梯積累了足夠多的量產(chǎn)數(shù)據(jù)閉環(huán)與端到端能力，才能邁上第三層樓梯。

元戎轉(zhuǎn)向 RoadAGI 更像是自我能力的延伸，就像元戎的技術(shù)演變一樣，從提出前融合再到端到端，再將 VLA 引入智駕，這些都是技術(shù)自然發(fā)展的過程。

智駕可能是一場有限游戲，但接下來元戎投身的物理 AI，更像是一種能持續(xù)獲得成長的無限游戲。

來源：第一電動(dòng)網(wǎng)

作者：汽車之心

本文地址：http://ewshbmdt.cn/kol/269709

返回第一電動(dòng)網(wǎng)首頁 >

文中圖片源自互聯(lián)網(wǎng)，如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com（#替換成@）刪除。

贊64

分享到：

發(fā)表評(píng)論

新聞推薦

大牛作者

汽車之心

微信公號(hào)Auto-Bit。汽車之心是一家專注智能汽車與自動(dòng)駕駛的媒體和知識(shí)服務(wù)平臺(tái)，定位于推動(dòng)汽車與科技的融合。我們的團(tuán)隊(duì)由一群熱愛汽車與新技術(shù)的資深媒體人、產(chǎn)品人與自動(dòng)駕駛行業(yè)從業(yè)者組成。歡迎添加微信號(hào)autobitxyz給我們提意見。