国产精品久久久久久久免费看,国产成人麻豆亚洲综合无码精品,国产精品白丝av嫩草影院,国产成人亚洲精品无码h在线 ,大又大又粗又硬又爽少妇毛片

  1. 首頁
  2. 大牛說
  3. 智駕VLA 陣營,理想、元戎雙強(qiáng)卡位

智駕VLA 陣營,理想、元戎雙強(qiáng)卡位

上半年智駕界的動(dòng)作,無非兩類。

一路玩家向上進(jìn)擊 L3,尊界 S800 會(huì)搭載 ADS4 版本實(shí)現(xiàn) L3,小鵬也將發(fā)布的 G7 稱為「首個(gè) L3 級(jí) AI 汽車?!?/p>

另一路玩家則向外拓展智駕邊界,元戎和理想陸續(xù)發(fā)布了語音控制智駕、理解路牌等需要系統(tǒng)具備長推理思維鏈的新功能。

水面之下其實(shí)是一場關(guān)于技術(shù)路線的分歧。

前一派認(rèn)為未來通往完全自動(dòng)駕駛的技術(shù)不是 VLA,而是世界模型。理由包括:泛仿真會(huì)代替 VLA 登上 C 位,而自然語言的解釋能力并非智駕的核心技術(shù)等等。

另一派則堅(jiān)定認(rèn)為下一代智駕還是 VLA。

元戎啟行 CEO 周光最近在火山引擎 Force 大會(huì)上直言「VLA 是實(shí)現(xiàn)完全自動(dòng)駕駛的必經(jīng)之路?!诡愃频兀?a class="link2" href="http://ewshbmdt.cn/tag/李想" target="_blank">李想也堅(jiān)定認(rèn)為「必須使用 VLA 才能實(shí)現(xiàn) L4 自動(dòng)駕駛。」

VLA 路線被重新推至風(fēng)口,但這一次 VLA 需要解決一些更難的問題。

01、剩下的問題,都是最難的

目前主流車企、智駕玩家都進(jìn)入到了全國都能開,高速、城區(qū)都達(dá)到了可用的狀態(tài)。

但從可用再到愛用、好用,差距很大。

本質(zhì)上是因?yàn)楹芏嗤婕疫€處于兩段式端到端系統(tǒng)中,周光把這稱為端到端 1.0 版本,而 VLA 則是端到端 2.0 版本,核心是要打造防御型駕駛能力。

在這個(gè)成熟度比較高的智駕市場中,剩下往往是最難解決的問題。

第一類問題就是黑盒問題。

在端到端的「黑盒子」模式中,模型行為缺乏可解釋性。

這種不可解釋性會(huì)導(dǎo)致兩個(gè)問題,一方面輔助駕駛系統(tǒng)可能會(huì)突然不知緣由「抽風(fēng)」,做一些違背正常司機(jī)駕駛的決策,比如突然加速等,這種反常識(shí)決策會(huì)讓用戶產(chǎn)生不信任感。

另一個(gè)層面就更危險(xiǎn)了,系統(tǒng)遇到不能處理的場景緊急退出,此時(shí)如果接管不及時(shí),就會(huì)導(dǎo)致事故發(fā)生。

第二類問題是防御型駕駛不夠。

防御型駕駛在于能不能預(yù)判路況,這也是新手司機(jī)跟老司機(jī)的區(qū)別。

最典型的就是高架橋的橋墩盲區(qū)。匝道匯入主路時(shí),一側(cè)的橋墩會(huì)遮住司機(jī)大半個(gè)視野,新手司機(jī)可能察覺不到,但老司機(jī)會(huì)提前減速觀察,避免突然出現(xiàn)車輛。

交管部門數(shù)據(jù)顯示,在眾多交通傷亡事故中,因內(nèi)輪差和盲區(qū)引發(fā)的事故占比達(dá)到 70% 以上。

現(xiàn)在多數(shù)智駕遇到鬼探頭只能做到急剎避讓,但防御型駕駛是要能提前結(jié)合場景,預(yù)知鬼探頭風(fēng)險(xiǎn)提前減速。

第三類問題是人機(jī)交互太過于機(jī)械化。

大多數(shù)車輛進(jìn)入輔助駕駛狀態(tài)后,用戶決策僅限于「不接管」和「接管」,沒有專屬用戶駕駛風(fēng)格的定制化調(diào)節(jié),這也是系統(tǒng)更容易決策偏離用戶預(yù)期的原因之一。

歸根結(jié)底,整個(gè)行業(yè)還沒有徹底解決用戶安心感的問題。

現(xiàn)在業(yè)內(nèi)針對(duì)提升智駕性能有兩個(gè)方向:一種是視覺-語言-動(dòng)作模型 VLA 路線,它在感知與動(dòng)作輸出之間引入了語言作為中介,通過三者融合來解決端到端泛化和可解釋性的問題,進(jìn)而提升系統(tǒng)安全感。

因此,以理想、元戎為代表的 VLA 路線,是端到端 2.0 版本,側(cè)重車端,需要運(yùn)用語言模型的能力。

  • 第一步:在 input 輸入層輸入視覺(BEV 圖像+點(diǎn)云)和文本輸入(語言轉(zhuǎn)文本的指令);

  • 第二步:由編碼器把文本和圖像、點(diǎn)云轉(zhuǎn)換為特征向量和語義向量;

  • 第三步:將視覺和文本兩種模態(tài)信息融合成統(tǒng)一的表征,VLA 就能同時(shí)理解圖像和文本指令;

  • 第四步:在 output 輸出層,解碼后系統(tǒng)輸出控車軌跡和人類可讀、可理解的思考過程。

另一種是世界模型路線。

本質(zhì)是在云端建造一座工廠,通過引入真實(shí)數(shù)據(jù)做場景泛化,形成生成大量虛擬駕駛場景來訓(xùn)練、評(píng)價(jià)系統(tǒng),進(jìn)而提升系統(tǒng)能力。以小鵬、華為、蔚來代表的世界模型路線,更側(cè)重云端,會(huì)消耗更多儲(chǔ)存和算力。

這兩種路線并不矛盾。

VLA 路線也結(jié)合了部分與駕駛數(shù)據(jù)相關(guān)的世界模型。

比如,李想提出 VLA 可以拆解為預(yù)訓(xùn)練、后訓(xùn)練和強(qiáng)化學(xué)習(xí)三個(gè)層面。強(qiáng)化學(xué)習(xí)中最重要的一步就是在世界模型里閉環(huán)學(xué)習(xí),引入舒適度、碰撞、交通規(guī)則等規(guī)則來打磨、反饋,讓 VLA 比人類開的更好。

因此兩種路線只是側(cè)重點(diǎn)的不同。

周光向汽車之心透露他們押注 VLA 的原因之一:元戎要運(yùn)用語言模型,并不只停留在表面的語音功能,而是更看中以語言為媒介的推理能力,對(duì)世界常識(shí)有更全面的認(rèn)知。

02、VLA 第一陣營:理想和元戎

VLA 動(dòng)靜最大的有兩家,一家理想,一家元戎。

兩個(gè)玩家的共性就是堅(jiān)定押注 VLA。

早在今年 1 月,元戎啟行就對(duì)外劇透了 VLA 模型,周光認(rèn)為自動(dòng)駕駛會(huì)跟著語言模型的水平走,而大語言模型發(fā)展會(huì)經(jīng)歷小學(xué)生—大學(xué)生—垂類專家三個(gè)階段。

對(duì)應(yīng)的傳統(tǒng)規(guī)則模型就像是弱專家系統(tǒng),但當(dāng)智駕玩家都開始利用端到端解決問題,就進(jìn)入了 AI 的「通才系統(tǒng)」。

類似的,今年 5 月份李想也講 AI 汽車發(fā)展,類似比為昆蟲、哺乳動(dòng)物和人類三階段,分別對(duì)應(yīng)規(guī)則算法、端到端+VLM、VLA 司機(jī)大模型。

VLA 技術(shù)路線下開發(fā)出的功能也十分相似。

兩個(gè)玩家都重新定義了「語音控車」。

此前,語音控車指通過語音喚醒車機(jī)、控制座艙?,F(xiàn)在元戎和理想將語音控車升級(jí)——用戶能在車輛在輔助駕駛中,語音控制車輛的動(dòng)作、車速、車道選擇等,甚至還釋放了會(huì)豪車識(shí)別功能。

如果前車屬于豪車,智駕系統(tǒng)就會(huì)更加謹(jǐn)慎。語音控車的背后就是 VLA 系統(tǒng)對(duì)場景深刻精準(zhǔn)的理解能力。

元戎和理想最大的區(qū)別,在于重心不同。

理想作為車企更注重智駕和智艙的平衡,而元戎作為智駕供應(yīng)商,主要側(cè)重在智駕上。

除了語音控車之外,元戎啟行還釋放了空間語義、異形障礙物識(shí)別、文字類引導(dǎo)牌理解三大功能。

空間語義功能,即 VLA 可以解決盲區(qū)場景設(shè)計(jì)的問題。

這就相當(dāng)于為系統(tǒng)裝上透視眼,預(yù)判現(xiàn)實(shí)世界的交通盲區(qū)。

周光展示了一張動(dòng)圖,車輛在右側(cè)行駛,右側(cè)有公交車,為了通行效率變道至左側(cè),標(biāo)志牌上提示「注意橫穿,減速慢行」,車輛在看到公交車微微剎車后,也跟著減速慢行。

這背后的邏輯是車輛理解了指示牌上文字信息——看到公交車在人行道前突然減速——系統(tǒng)推理盲區(qū)有行人橫穿——最終提前減速、謹(jǐn)慎通行。

之所以能提前預(yù)判行人穿行,就取決于 VLA 的長思維鏈。此前端到端 1.0 版本只能推測幾秒之內(nèi)的路況,VLA 思維鏈更長,推理能力更長更遠(yuǎn)。

在異形障礙物識(shí)別上,元戎 VLA 模型的能力更強(qiáng)。

上一代端到端的識(shí)別異形障礙物屬于智駕的算法長尾問題,過去經(jīng)常被歸類為 1% 的極端路況。

但是依靠 VLA 模型,即便碰上三輪上堆滿形狀、材質(zhì)各異的貨物,仍然能識(shí)別出它的本體是一輛三輪車。

最后,VLA 也可以加強(qiáng)系統(tǒng)對(duì)文字類引導(dǎo)牌的理解能力。

一個(gè)文盲想要開好車很難,元戎啟行的 VLA 模型能夠識(shí)別理解各種圖形、文字類路牌信息,按照路牌引導(dǎo)內(nèi)容行駛。

從元戎釋放的測試動(dòng)圖來看,即便在是復(fù)雜的八車道路口,系統(tǒng)仍然能理解路牌信息,選擇正確道路行駛。

以上這四類功能都隱約透露出元戎的野心——用 VLA 打造出能防御型駕駛的 AI 司機(jī)。

據(jù)悉,元戎的 VLA 模型將會(huì)在第三季度量產(chǎn)上車 5 款車型,接下來智駕是否具備更長遠(yuǎn)的思維、推測能力,VLA 能否大規(guī)模量產(chǎn)上車,也是下半年智駕玩家們能否進(jìn)入 VLA 第一梯隊(duì)的關(guān)鍵。

03、極致的 VLA,通用人工智能的「神之一手」

VLA 不僅可以通向極致的智駕,同時(shí)極致的 VLA,也能造出物理世界的通用人工智能。

9 年前 AlphaGo 和李世石決戰(zhàn)的第二局中,將第 37 手落在了棋盤第五線,起初大多數(shù)專家認(rèn)為 AlphaGo 失誤了。

因?yàn)楹苌儆懈叨挝贿x手會(huì)開局就如此激進(jìn),但正是看似充滿不確定性的 37 手棋,脫離了人類圍棋選手的傳統(tǒng)思維模式,走出了 AI 最獨(dú)特的一步。

本質(zhì)上就是因?yàn)?AlphaGo 每一步都能推演得到 150 手以后的格局。類似地,擁有長思維鏈能力的 VLA,很可能是通用人工智能的「神之一手」。

但要想用 VLA 打造物理世界的通用人工智能,必須完走三個(gè)技術(shù)階梯。

第一層樓梯是基本功,要完整的積累智駕數(shù)據(jù),開啟量產(chǎn)交付。

2024 年是元戎的量產(chǎn)元年,元戎除最核心的落地項(xiàng)目藍(lán)山全新智駕版,還開啟了長城高山、smart 精靈 5 以及海外車型的量產(chǎn)項(xiàng)目,其中,藍(lán)山全新智駕版上市 2 個(gè)月城區(qū)智駕激活量就超過了 1.3 萬輛,打造出小爆款。

第二層樓梯,是用 VLA 技術(shù)占領(lǐng)時(shí)間和量產(chǎn)高地。

從時(shí)間線來看,元戎是業(yè)內(nèi)最早將 VLA 概念引入智駕領(lǐng)域的玩家。在量產(chǎn)上,元戎正在與浙江某頭部車企洽談項(xiàng)目,預(yù)計(jì)今年元戎啟行累計(jì)出貨量將會(huì)達(dá)到 20 萬輛。

第三層樓梯,就是利用 VLA 模型復(fù)制到所有可移動(dòng)的物體上,打造物理世界人工智能 RoadAGI。

通向 RoadAGI 的技術(shù),依舊是 VLA。

首先,VLA 的技術(shù)概念本身就源自于機(jī)器人界。2023 年谷歌在其發(fā)布的 RT2 中提出 VLA 模型,這也是全球第一個(gè)控制機(jī)器人的 VLA 模型,不僅能讓機(jī)器人解讀人類的復(fù)雜指令,還能看懂眼前的物體,并按照指令采取動(dòng)作。

VLA 被公認(rèn)為是機(jī)器人編程的重大飛躍,一年后周光就將 VLA 遷移到智能駕駛,現(xiàn)在元戎利用 VLA 模型開發(fā)的四大功能,也在間接證明智駕和機(jī)器人的底層技術(shù)可以共享。

其次,VLA 具備四個(gè)核心特性在更大范圍的物理世界同樣適用。

  • 架構(gòu)繼承:讓 VLA 可以直接復(fù)用成熟的基座模型架構(gòu),不用重新造輪子;

  • 動(dòng)作 Token 化:可以把物理世界的一系列行為表述為語言進(jìn)行推理;

  • 端到端學(xué)習(xí):感知、推理、控制一體化,減少了信息傳遞損失;

  • 可泛化性:能讓系統(tǒng)具備舉一反三的能力;

今年年初,元戎啟行就曾在英偉達(dá) GTC 大會(huì)上小試牛刀,公布過 RoadAGI 最新進(jìn)展。

目前,通過 Spark 1.0 元戎已經(jīng)可以實(shí)現(xiàn)配送的閉環(huán):一臺(tái)移動(dòng)機(jī)器人可以自動(dòng)識(shí)別店鋪、紅綠燈、過閘機(jī)、摁電梯,最終把貨物從店鋪送到辦公室。

跟傳統(tǒng)無人車的區(qū)別是,這臺(tái)移動(dòng)機(jī)器人行走不依賴高精地圖,且擁有對(duì)周邊環(huán)境的理解能力。相比之下,目前大多數(shù)機(jī)器人都是基于規(guī)則做遙操控制,而元戎的思路是做機(jī)器人的規(guī)劃和大腦,用技術(shù)解決智能體的移動(dòng)問題。

接下來,元戎啟行將和火山引擎,基于豆包大模型,共同研發(fā) VLA 等前瞻技術(shù),打造物理世界的 Agent。

就像周光所言,智能汽車是人類首個(gè)達(dá)到千萬級(jí)數(shù)據(jù)體量的機(jī)器人。通向 RoadAGI 不止需要極致的 VLA,還取決于前期的數(shù)據(jù)、工程經(jīng)驗(yàn)積累。

只有在第一、第二層階梯積累了足夠多的量產(chǎn)數(shù)據(jù)閉環(huán)與端到端能力,才能邁上第三層樓梯。

元戎轉(zhuǎn)向 RoadAGI 更像是自我能力的延伸,就像元戎的技術(shù)演變一樣,從提出前融合再到端到端,再將 VLA 引入智駕,這些都是技術(shù)自然發(fā)展的過程。

智駕可能是一場有限游戲,但接下來元戎投身的物理 AI,更像是一種能持續(xù)獲得成長的無限游戲。

來源:第一電動(dòng)網(wǎng)

作者:汽車之心

本文地址:http://ewshbmdt.cn/kol/269709

返回第一電動(dòng)網(wǎng)首頁 >

收藏
64
  • 分享到:
發(fā)表評(píng)論
新聞推薦
大牛作者

汽車之心

微信公號(hào)Auto-Bit。汽車之心是一家專注智能汽車與自動(dòng)駕駛的媒體和知識(shí)服務(wù)平臺(tái),定位于推動(dòng)汽車與科技的融合。我們的團(tuán)隊(duì)由一群熱愛汽車與新技術(shù)的資深媒體人、產(chǎn)品人與自動(dòng)駕駛行業(yè)從業(yè)者組成。歡迎添加微信號(hào)autobitxyz給我們提意見。

  • 1001
    文章
  • 47072
    獲贊
閱讀更多文章
熱文榜
日排行
周排行
第一電動(dòng)網(wǎng)官方微信

反饋和建議 在線回復(fù)

您的詢價(jià)信息
已經(jīng)成功提交我們稍后會(huì)聯(lián)系您進(jìn)行報(bào)價(jià)!

第一電動(dòng)網(wǎng)
Hello world!
-->