對于理想AD Max用戶來說,今天絕對是一個(gè)值得慶祝的日子。
理想汽車在今天正式召開了智能駕駛夏季發(fā)布會,主要內(nèi)容包含了:
- 基于端到端模型、VLM視覺語言模型和世界模型的全新自動(dòng)駕駛技術(shù)架構(gòu);
- 將于7月內(nèi)推送的全自動(dòng)AES和全方位低速AEB。
其中,端到端模型、VLM視覺語言模型和世界模型是理想AD Max的全新技術(shù),這項(xiàng)技術(shù)能夠幫助理想汽車智能駕駛擺脫對先驗(yàn)信息的依賴,在全國范圍內(nèi)實(shí)現(xiàn)有導(dǎo)航覆蓋即可使用NOA。
而全自動(dòng)AES和全方位低速AEB,則能夠讓理想AD Max在更多場景下實(shí)現(xiàn)更好的主動(dòng)安全能力。
下面我們一項(xiàng)一項(xiàng)來看。
首個(gè)雙系統(tǒng)架構(gòu)方案
大多數(shù)人今天關(guān)注的重點(diǎn)是理想的全新的雙系統(tǒng)技術(shù)架構(gòu),早在近一個(gè)月前的「2024中國汽車重慶論壇」上,李想就分享了這套理想汽車的最新技術(shù)架構(gòu)。
理想團(tuán)隊(duì)在一本書《思考,快與慢》中得到啟示:
我們?nèi)祟惖拇竽X日常在工作的時(shí)候,分為系統(tǒng)一和系統(tǒng)二。系統(tǒng)一來處理一些需要直覺和快速響應(yīng)的事情。系統(tǒng)二處理比較復(fù)雜的邏輯推演工作。
代入到人類的駕駛行為,日常近95%的駕駛?cè)蝿?wù)是不需要推演的,開車時(shí)腦子里甚至還可以想其他事情,這時(shí)候大腦并不是沒有工作,而是以一種低能耗的方式在工作。
但是當(dāng)我們到了復(fù)雜路況時(shí),比如遇到復(fù)雜的路口、多車混行的路段,我們的大腦就會調(diào)用系統(tǒng)二來工作,用它來處理比較復(fù)雜的邏輯推演的能力,雖然它對大腦消耗比較大,但我們不會一直以系統(tǒng)二的方式開車。
自動(dòng)駕駛?cè)绻匀祟惖姆绞絹黹_車,那么系統(tǒng)一和系統(tǒng)二對應(yīng)的是什么?
理想汽車認(rèn)為,現(xiàn)在行業(yè)在研究的端到端技術(shù)正是自動(dòng)駕駛需要的系統(tǒng)一,它的效率很高,善于處理簡單任務(wù),是人類基于經(jīng)驗(yàn)和習(xí)慣形成的直覺,足以應(yīng)對駕駛車輛時(shí)95%的常規(guī)場景。
系統(tǒng)二則是理想率先基于 Orin-X 部署的 VLM 視覺語言模型,它更擅長邏輯推理、復(fù)雜分析和計(jì)算能力,在駕駛車輛時(shí)用于解決復(fù)雜甚至未知的交通場景,占日常駕駛的約5%。
系統(tǒng)一和系統(tǒng)二的相互配合,分別確保大部分場景下的高效率和少數(shù)場景下的高上限,成為人類認(rèn)知、理解世界并做出決策的基礎(chǔ)。
系統(tǒng)一,即端到端
理想汽車的端到端輸入主要由攝像頭和激光雷達(dá)構(gòu)成,多傳感器特征經(jīng)過CNN主干網(wǎng)絡(luò)的提取、融合,投影至BEV空間。
為了提升模型的表征能力,理想汽車加入了記憶模塊,具備時(shí)間和空間的記憶能力。
在模型的輸入中,理想汽車還加入了汽車的狀態(tài)信息和導(dǎo)航信息,經(jīng)過 Transformer模型的編碼,輸出感知任務(wù),包含了動(dòng)態(tài)障礙物、道路結(jié)構(gòu)和通用障礙物等等,并規(guī)劃行車軌跡。
輸入感知信息,輸出規(guī)控軌跡,這是理想AD的系統(tǒng)一,端到端模型。
更擅長「讀圖」的VLM模型
VLM 視覺語言模型,通俗地說,這是一個(gè)擅長解讀照片的網(wǎng)絡(luò)。
我們都知道,自動(dòng)駕駛感知主要輸入的是圖片,這是最重要的信息,但如何讓系統(tǒng)讀懂信息,這是最關(guān)鍵的一步。
VLM 模型相對來說更擅長這些場景理解,能識別和描述道路環(huán)境、交通標(biāo)志、動(dòng)態(tài)交通參與者等等。通過不斷的訓(xùn)練,VLM能夠進(jìn)行自主推演。例如交警的手勢,大多數(shù)模型架構(gòu)是無法解決「讀懂」的,甚至人的大腦都需要推理,但是VLM可以承擔(dān)這部分任務(wù)。
這就是為什么李想說,VLM是端到端很好的補(bǔ)充。
理想汽車的VLM視覺語言模型參數(shù)量達(dá)到22億,對物理世界的復(fù)雜交通環(huán)境具有強(qiáng)大的理解能力,許多場景即便是第一次經(jīng)歷,也能夠很好地化解。
再舉個(gè)例子,VLM模型可以理解公交車道、潮汐車道和分時(shí)段限行等復(fù)雜的交通規(guī)則,在駕駛中作出合理決策。
可以說,VLM給端到端在給端到端這種不可加規(guī)則的模型進(jìn)行了很好的兜底。
但是,VLM本身也是黑盒,理想為了驗(yàn)證雙系統(tǒng)的安全性,用 Diffusion Transformer 的方式來構(gòu)建一個(gè)重要的、小型的世界模型,拿到這個(gè)世界模型,讓車在里面考試。
理想汽車結(jié)合端到端模型和VLM視覺語言模型,成為了首個(gè)在車端部署雙系統(tǒng)的方案,也首次將VLM視覺語言模型成功部署在車端芯片(Orin-X)上。
主動(dòng)安全
看完了發(fā)布會,我對理想智駕的印象只有一個(gè)字,那就是卷。不僅僅是城區(qū)NOA的前瞻研發(fā)和工程化落地,在主動(dòng)安全上,理想也把場景和功能類型做到了非常豐富和完備。
理想的主動(dòng)安全包含了四大能力,分別是復(fù)雜路口的AEB、夜間弱光AEB、全自動(dòng)AES和全方位低速AEB。
我們分別來看這四大場景的能力和價(jià)值。
復(fù)雜路口指的是當(dāng)我們在人車混行的轉(zhuǎn)彎行駛時(shí),尤其是轉(zhuǎn)彎時(shí),駕駛員的視線是存在盲區(qū)的,這時(shí)候主動(dòng)AEB就能夠幫助駕駛員規(guī)避風(fēng)險(xiǎn)。
尤其是橫穿的兒童,這是典型的高危場景。
夜間弱光環(huán)境下,駕駛員視線會受到嚴(yán)重干擾,尤其是在閃著燈的龍門架下,更是一個(gè)難解的場景。理想這次也針對夜間暗光環(huán)境做了升級,確保功能極限夠高。
全自動(dòng)AES(自動(dòng)緊急轉(zhuǎn)向)指的是,在車輛行駛速度較快時(shí),留給主動(dòng)安全系統(tǒng)的反應(yīng)時(shí)間極短,部分情況下即使觸發(fā)AEB,車輛全力制動(dòng)仍無法及時(shí)剎停。這個(gè)時(shí)候,AES功能將被及時(shí)觸發(fā),無需人為參與轉(zhuǎn)向操作,自動(dòng)緊急轉(zhuǎn)向,避讓前方目標(biāo),從而避免碰撞的發(fā)生。
最后一項(xiàng),全方位全方位低速AE則針對泊車和低速行車場景。
在我們?nèi)粘2窜嚂r(shí),停車場可能存在一些低矮的障礙物,甚至?xí)霈F(xiàn)兒童,全方位低速AEB能夠識別前向、后向和側(cè)向的碰撞風(fēng)險(xiǎn),及時(shí)緊急制動(dòng),避免碰撞發(fā)生。
以上這些功能,都會在7月推送給用戶。
在這里理想汽車也分享了一組數(shù)據(jù),在202年上半年,理想汽車AD Max主動(dòng)安全系統(tǒng)已經(jīng)顯著降低了人類駕駛事故率:人類駕駛事故率降低30%、人類駕駛事故避免36萬起、AEB誤觸發(fā)率每30萬公里小于1次。
寫在最后
今天的發(fā)布會全程圍繞智駕,并且在看完后,我相信大多數(shù)人都有兩點(diǎn)感觸。
第一,過去我們國內(nèi)OEM與智駕供應(yīng)商提出的技術(shù),都是特斯拉在AI DAY上和CVPR上已發(fā)布的技術(shù)。
在智駕前瞻技術(shù)上,我們一直是跟隨的角色,但是理想今天的技術(shù),讓行業(yè)獲得了久違的新鮮感,我們要鼓勵(lì)前瞻技術(shù)的探索和工程落地。
第二,我們的新勢力一直在卷主動(dòng)安全,這是最不怕卷的領(lǐng)域,消費(fèi)者需要更好、更強(qiáng)的主動(dòng)安全能力。
什么是卷出價(jià)值?這就是最好的詮釋。
來源:第一電動(dòng)網(wǎng)
作者:AutoLab
本文地址:http://ewshbmdt.cn/news/shichang/236653
以上內(nèi)容轉(zhuǎn)載自AutoLab,目的在于傳播更多信息,如有侵僅請聯(lián)系admin#d1ev.com(#替換成@)刪除,轉(zhuǎn)載內(nèi)容并不代表第一電動(dòng)網(wǎng)(ewshbmdt.cn)立場。
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請聯(lián)系admin#d1ev.com(#替換成@)刪除。