3 月 25 日,極越在百度科技園舉辦了首屆極越 AI DAY 。
作為背靠百度思考的純電車型品牌,極越在智能化層面顯然擁有著屬于自己的獨(dú)特想法,而在這場 AI DAY 活動中,極越就智駕、地圖、語音這屬于極越的三大核心領(lǐng)域進(jìn)行了全面革新。
本篇文章,就由姜硬與大家一起回顧,本次極越 AI DAY,極越為大家?guī)碇悄芑I(lǐng)域新的思考吧。
“具備「體驗(yàn)跨溝」?jié)摿Φ母唠A智駕,需要具備四個必要條件:城區(qū)領(lǐng)航輔助駕駛、全國都能開、系統(tǒng)體驗(yàn)安心、數(shù)據(jù)飛輪快速演進(jìn)。”
百度智駕首席研發(fā)架構(gòu)師王亮,向我們循序漸進(jìn)地介紹,極越關(guān)于未來智能駕駛的核心因素。
在過去的一年中,極越在春節(jié)期間創(chuàng)造了 93% 的用戶整體智駕滲透率、500,000 公里的領(lǐng)航輔助道路覆蓋、324 次 AI 模型迭代上車……折算為每一天的視角,極越幾乎只需要一天多一些的時間,便能迭代一次 AI 模型,推進(jìn)超過 1000 公里的領(lǐng)航輔助道路覆蓋。
這是極越的微小成績,但在成績背后,依托視覺感知的極越 01 ,本身在智能駕駛的路線上便和其他對手有著不一樣的思考:
激光雷達(dá)生成的是單調(diào)的點(diǎn)云,而視覺看到的是五彩斑斕的真實(shí)世界,如何設(shè)計算法提取視覺感知到的海量信息,便成為了王亮團(tuán)隊需要做的事情。
信號燈、機(jī)動車、行人……如何讓模型掌握通用的泛化學(xué)習(xí)能力?王亮介紹了屬于極越的第一步 AI 思考——“Vision takes all”,VTA Net 。在這套大模型網(wǎng)絡(luò)中,王亮向我們介紹了其基座,也就是預(yù)訓(xùn)練感知基礎(chǔ)大模型。
王亮深入淺出地為我們講解了這套基礎(chǔ)模型:“相當(dāng)于一個博士生,ta 剛?cè)雽W(xué)的前兩年里,并不會直接接觸團(tuán)隊的核心課題,而是從基礎(chǔ)課程學(xué)起,這樣才能在日后進(jìn)入核心課題時有著更深入的理解?!边@套基礎(chǔ)模型在 VTA 網(wǎng)絡(luò)中也起到相似的作用,即打好基礎(chǔ),幫助 VTA 更好的理解真實(shí)世界。
因此基礎(chǔ)模型的第一階段,是利用現(xiàn)階段累計的自動駕駛數(shù)據(jù),進(jìn)行無標(biāo)注的自監(jiān)督學(xué)習(xí)訓(xùn)練;第二階段則是進(jìn)行通用的視覺學(xué)習(xí)任務(wù)——此時便不止于車輛錄取的數(shù)據(jù)信息,而是通過互聯(lián)網(wǎng)上海量的圖文信息,進(jìn)行通用的視覺訓(xùn)練。
在打好基礎(chǔ)后,基礎(chǔ)模型進(jìn)入下一步的“課程開題報告”階段——目標(biāo)檢測、實(shí)時建圖、時序跟蹤、場景理解。即度過了通用學(xué)習(xí)階段后,基礎(chǔ)模型開始針對特定任務(wù),進(jìn)行垂直領(lǐng)域的深耕與訓(xùn)練。
“在這四大核心能力都成立的基礎(chǔ)上,便能更加接近端到端的感覺,可以對場景里發(fā)生的事情進(jìn)行理解、相應(yīng)的推理和動作。”王亮解釋道。
雖然 OCC 占用網(wǎng)絡(luò)已經(jīng)在 1.3 版本里上車,但在 1.3 跨步到 1.4 版本中,極越的 OCC 占用網(wǎng)絡(luò)模型新增了超過 1 億幀的數(shù)據(jù);同時更新了 1.4 的早鳥用戶中,有 72% 認(rèn)為避障能力有所提升。
而據(jù)王亮介紹,再之后基于視覺 OCC 的占用網(wǎng)絡(luò)還會進(jìn)行一輪新的升級,覆蓋「行」與「泊」全場景:
在高速/城區(qū)/低速泊車場景里,視覺 OCC 能夠調(diào)取不同的性能數(shù)據(jù),在視距、分辨率和刷新率方面根據(jù)不同的場景進(jìn)行定制化的性能調(diào)用。
而在基礎(chǔ)模型與視覺 OCC 的雙重進(jìn)化后,視覺能力還能得到極大的開發(fā)——
總體而言,視覺感知基礎(chǔ)大模型實(shí)現(xiàn)了系統(tǒng)決策與規(guī)劃能力的階躍,而在這類大模型的背后,則是極越背靠百度三大計算中心提供的超大規(guī)模 AI 運(yùn)算能力——超 2.2EFLOPS 的 GPU 算力、30PB 數(shù)據(jù)緩存、98% 有效訓(xùn)練時長、95%帶寬有效性。
而在最后,王亮還向我們分享了兩個基于不同模型創(chuàng)造出高效率識別的場景片段:基于文心大模型,做到直接打字搜索具體自動駕駛場景;基于生成式 AI ,調(diào)整 ROBOTAXI 數(shù)據(jù)采集視角與量產(chǎn)上市車型統(tǒng)一,并能根據(jù)文本生成定制化自動駕駛視頻。
什么是 LD 地圖?
百度副總裁尚國斌先向我們倒了陣苦水:一線城市的高精地圖制作費(fèi)用通常需要上億元,并且不包含后續(xù)的維護(hù)費(fèi)用;轉(zhuǎn)向無圖化的道路,雖然泛化能力強(qiáng)開城速度快,但對比現(xiàn)實(shí)場景會少許多要素,精度也無法時刻保證。
因此百度地圖的思考,是在「有圖」與「無圖」的交集中,尋找出折中的辦法——車道級導(dǎo)航地圖,即 LD 地圖,號稱自動駕駛的原生地圖便應(yīng)運(yùn)而生。
“用自動駕駛的思維去測繪地圖。”一語點(diǎn)醒夢中人,LD 地圖的思考開始豁然開朗。在專業(yè)采集車、智能網(wǎng)聯(lián)車與路側(cè)的感知設(shè)備提取到道路的第一手信息后,百度地圖的視覺感知大模型開始對這些數(shù)據(jù)進(jìn)行學(xué)習(xí)與訓(xùn)練。
在前文基礎(chǔ)模型的熏陶下,想必你也能較為簡單的明了這套大模型的運(yùn)作邏輯——識別要素、場景理解、推理生成、拓?fù)潢P(guān)聯(lián),大模型代替了原先地圖測繪中大部分的繁瑣以及后續(xù)的更新工作,這對于地圖測繪而言無疑是減負(fù)的。
而在大模型的作用下,地圖測繪也有了「開城」的概念,“全國城市都能開,智駕有圖才安全。”尚國斌說道,而安全,便是減負(fù)后增加的部分。
在圖層的概念下,LD 地圖疊加了限速、車道與軌跡的經(jīng)驗(yàn)圖層;匝道與路口通行的安全圖層;紅綠燈和動態(tài)事件構(gòu)成的實(shí)時圖層。在圖層疊加的情況下,LD 地圖對于安全的理解,對比無圖化部隊明顯更進(jìn)一步。
“全國都能開,只是基礎(chǔ)。智駕要像人一樣開,比人更安全。未來大家打開百度地圖看到有車道級導(dǎo)航的地方,就一定可以放心開 PPA?!?/span>
“為什么其它車型同樣用上 8295 ,卻做不到極越 01 這樣的車內(nèi)語音體驗(yàn)?”百度語音首席架構(gòu)師賈磊,發(fā)出了這樣一段靈魂質(zhì)疑。
網(wǎng)絡(luò)不穩(wěn)定,導(dǎo)致語音助手的反應(yīng)速度慢;有限的算力,讓語音助手的上限變得一眼望盡;語音對話采集,其中的隱私風(fēng)險,現(xiàn)代人又防不勝防。
有基于此,搭載離線的端側(cè)大模型,能夠有效彌補(bǔ)上述車內(nèi)交互中的痛點(diǎn)。賈磊為我們在系統(tǒng)和算法上詳細(xì)講解了一波:
首先是系統(tǒng)創(chuàng)新上,極越語音團(tuán)隊將整個語音交互系統(tǒng)“搬進(jìn)”了車載 NPU 中。這樣做的好處是帶來了更快的語音交互響應(yīng)速度——將聲學(xué)模型、語言模型、置信度和語義解析都放進(jìn)了一體化的建模中,接收車內(nèi)人員指令后,能夠一次性并行向系統(tǒng)輸出結(jié)果。
其次是算法,極越語音團(tuán)隊創(chuàng)造了全新 smlta2 聲學(xué)建模技術(shù),將中/英文、普通話/方言的模型都進(jìn)行了統(tǒng)一;而針對后續(xù) 6/7 座車型的多音區(qū)算力壓力,語音團(tuán)隊還進(jìn)行了一波“減壓”——將原先需要分散再增強(qiáng)識別的音頻素材,整合進(jìn)一種波束,做到了多合一的情況下依舊能準(zhǔn)確識別輸出。
而在最后,賈磊預(yù)告了一個讓我們意想不到的操作——利用視覺感知與語音融合的多模態(tài)交互技術(shù)即將上車。
在加入視覺感知后,系統(tǒng)可以通過觀察發(fā)出指令者的唇動特征,進(jìn)行同向的干擾聲源消除,提升抗噪能力;同時確定指令者方位,還能提升定向的拾音效果。
“昨天的領(lǐng)先只是暫時,今天的領(lǐng)先已在路上?!蔽曳浅O矚g賈磊在語音篇章中的這頁 PPT,沒有永恒領(lǐng)先的對手,只有步步上爬的登山者。
此時此刻恰如彼時彼刻,當(dāng)我們還在為過去新勢力們?nèi)〉玫南冗M(jìn)技術(shù)喝彩時,今日已然是更先進(jìn)技術(shù)加入這場內(nèi)卷風(fēng)暴的時間。但正如最后一句話所言,“最強(qiáng)的技術(shù)還在明天?!边@是所有智能化團(tuán)隊的統(tǒng)一追求,所謂的全國都能開,是門票,也是一輪新的起點(diǎn)。
就讓我們看看,極越在 AI DAY 的大放異彩后,還能為我們帶來何許驚喜吧。
來源:第一電動網(wǎng)
作者:新出行
本文地址:http://ewshbmdt.cn/carnews/pingce/224021
以上內(nèi)容轉(zhuǎn)載自新出行,目的在于傳播更多信息,如有侵僅請聯(lián)系admin#d1ev.com(#替換成@)刪除,轉(zhuǎn)載內(nèi)容并不代表第一電動網(wǎng)(ewshbmdt.cn)立場。
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請聯(lián)系admin#d1ev.com(#替換成@)刪除。