国产精品久久久久久久免费看,国产成人麻豆亚洲综合无码精品,国产精品白丝av嫩草影院,国产成人亚洲精品无码h在线 ,大又大又粗又硬又爽少妇毛片

  1. 首頁
  2. 車訊
  3. 評測
  4. AI 大模型驅(qū)動全面進(jìn)化 一文看懂極越 AI DAY

AI 大模型驅(qū)動全面進(jìn)化 一文看懂極越 AI DAY

新出行

3 月 25 日,極越在百度科技園舉辦了首屆極越 AI DAY 。

作為背靠百度思考的純電車型品牌,極越在智能化層面顯然擁有著屬于自己的獨(dú)特想法,而在這場 AI DAY 活動中,極越就智駕、地圖、語音這屬于極越的三大核心領(lǐng)域進(jìn)行了全面革新。

本篇文章,就由姜硬與大家一起回顧,本次極越 AI DAY,極越為大家?guī)碇悄芑I(lǐng)域新的思考吧。

智能駕駛:用 AI 思維重構(gòu)自動駕駛

“具備「體驗(yàn)跨溝」?jié)摿Φ母唠A智駕,需要具備四個必要條件:城區(qū)領(lǐng)航輔助駕駛、全國都能開、系統(tǒng)體驗(yàn)安心、數(shù)據(jù)飛輪快速演進(jìn)。

百度智駕首席研發(fā)架構(gòu)師王亮,向我們循序漸進(jìn)地介紹,極越關(guān)于未來智能駕駛的核心因素。

百度智駕首席研發(fā)架構(gòu)師 王亮

在過去的一年中,極越在春節(jié)期間創(chuàng)造了 93% 的用戶整體智駕滲透率、500,000 公里的領(lǐng)航輔助道路覆蓋、324 次 AI 模型迭代上車……折算為每一天的視角,極越幾乎只需要一天多一些的時間,便能迭代一次 AI 模型,推進(jìn)超過 1000 公里的領(lǐng)航輔助道路覆蓋。

這是極越的微小成績,但在成績背后,依托視覺感知的極越 01 ,本身在智能駕駛的路線上便和其他對手有著不一樣的思考:

-用視覺解決一切的愿景網(wǎng)絡(luò)

激光雷達(dá)生成的是單調(diào)的點(diǎn)云,而視覺看到的是五彩斑斕的真實(shí)世界,如何設(shè)計算法提取視覺感知到的海量信息,便成為了王亮團(tuán)隊需要做的事情。

信號燈、機(jī)動車、行人……如何讓模型掌握通用的泛化學(xué)習(xí)能力?王亮介紹了屬于極越的第一步 AI 思考——“Vision takes all”,VTA Net 。在這套大模型網(wǎng)絡(luò)中,王亮向我們介紹了其基座,也就是預(yù)訓(xùn)練感知基礎(chǔ)大模型。

王亮深入淺出地為我們講解了這套基礎(chǔ)模型:“相當(dāng)于一個博士生,ta 剛?cè)雽W(xué)的前兩年里,并不會直接接觸團(tuán)隊的核心課題,而是從基礎(chǔ)課程學(xué)起,這樣才能在日后進(jìn)入核心課題時有著更深入的理解?!边@套基礎(chǔ)模型在 VTA 網(wǎng)絡(luò)中也起到相似的作用,即打好基礎(chǔ),幫助 VTA 更好的理解真實(shí)世界。

因此基礎(chǔ)模型的第一階段,是利用現(xiàn)階段累計的自動駕駛數(shù)據(jù),進(jìn)行無標(biāo)注的自監(jiān)督學(xué)習(xí)訓(xùn)練;第二階段則是進(jìn)行通用的視覺學(xué)習(xí)任務(wù)——此時便不止于車輛錄取的數(shù)據(jù)信息,而是通過互聯(lián)網(wǎng)上海量的圖文信息,進(jìn)行通用的視覺訓(xùn)練。

在打好基礎(chǔ)后,基礎(chǔ)模型進(jìn)入下一步的“課程開題報告”階段——目標(biāo)檢測、實(shí)時建圖、時序跟蹤、場景理解。即度過了通用學(xué)習(xí)階段后,基礎(chǔ)模型開始針對特定任務(wù),進(jìn)行垂直領(lǐng)域的深耕與訓(xùn)練。

“在這四大核心能力都成立的基礎(chǔ)上,便能更加接近端到端的感覺,可以對場景里發(fā)生的事情進(jìn)行理解、相應(yīng)的推理和動作。”王亮解釋道。

-更強(qiáng)大的視覺 OCC 占用網(wǎng)絡(luò)

雖然 OCC 占用網(wǎng)絡(luò)已經(jīng)在 1.3 版本里上車,但在 1.3 跨步到 1.4 版本中,極越的 OCC 占用網(wǎng)絡(luò)模型新增了超過 1 億幀的數(shù)據(jù);同時更新了 1.4 的早鳥用戶中,有 72% 認(rèn)為避障能力有所提升。

而據(jù)王亮介紹,再之后基于視覺 OCC 的占用網(wǎng)絡(luò)還會進(jìn)行一輪新的升級,覆蓋「行」與「泊」全場景:

在高速/城區(qū)/低速泊車場景里,視覺 OCC 能夠調(diào)取不同的性能數(shù)據(jù),在視距、分辨率和刷新率方面根據(jù)不同的場景進(jìn)行定制化的性能調(diào)用。

而在基礎(chǔ)模型與視覺 OCC 的雙重進(jìn)化后,視覺能力還能得到極大的開發(fā)——

  • 視覺被遮擋從而感應(yīng)不到的物體,可以通過跟蹤能力“腦補(bǔ)”物體軌跡;
  • 支持更多的道路元素識別、更強(qiáng)的測距能力和道路拓?fù)淠芰?,基于視覺信息進(jìn)行實(shí)時建圖;
  • 強(qiáng)化的“閱讀理解”能力,支持做出更敏捷的的決策路徑,更加“端到端”的推理與執(zhí)行。

總體而言,視覺感知基礎(chǔ)大模型實(shí)現(xiàn)了系統(tǒng)決策與規(guī)劃能力的階躍,而在這類大模型的背后,則是極越背靠百度三大計算中心提供的超大規(guī)模 AI 運(yùn)算能力——超 2.2EFLOPS 的 GPU 算力、30PB 數(shù)據(jù)緩存、98% 有效訓(xùn)練時長、95%帶寬有效性。

而在最后,王亮還向我們分享了兩個基于不同模型創(chuàng)造出高效率識別的場景片段:基于文心大模型,做到直接打字搜索具體自動駕駛場景;基于生成式 AI ,調(diào)整 ROBOTAXI 數(shù)據(jù)采集視角與量產(chǎn)上市車型統(tǒng)一,并能根據(jù)文本生成定制化自動駕駛視頻。

LD 地圖:百度地圖的折中之法

什么是 LD 地圖?

百度副總裁尚國斌先向我們倒了陣苦水:一線城市的高精地圖制作費(fèi)用通常需要上億元,并且不包含后續(xù)的維護(hù)費(fèi)用;轉(zhuǎn)向無圖化的道路,雖然泛化能力強(qiáng)開城速度快,但對比現(xiàn)實(shí)場景會少許多要素,精度也無法時刻保證。

因此百度地圖的思考,是在「有圖」與「無圖」的交集中,尋找出折中的辦法——車道級導(dǎo)航地圖,即 LD 地圖,號稱自動駕駛的原生地圖便應(yīng)運(yùn)而生。

“用自動駕駛的思維去測繪地圖。”一語點(diǎn)醒夢中人,LD 地圖的思考開始豁然開朗。在專業(yè)采集車、智能網(wǎng)聯(lián)車與路側(cè)的感知設(shè)備提取到道路的第一手信息后,百度地圖的視覺感知大模型開始對這些數(shù)據(jù)進(jìn)行學(xué)習(xí)與訓(xùn)練。

在前文基礎(chǔ)模型的熏陶下,想必你也能較為簡單的明了這套大模型的運(yùn)作邏輯——識別要素、場景理解、推理生成、拓?fù)潢P(guān)聯(lián),大模型代替了原先地圖測繪中大部分的繁瑣以及后續(xù)的更新工作,這對于地圖測繪而言無疑是減負(fù)的。

而在大模型的作用下,地圖測繪也有了「開城」的概念,“全國城市都能開,智駕有圖才安全。”尚國斌說道,而安全,便是減負(fù)后增加的部分。

在圖層的概念下,LD 地圖疊加了限速、車道與軌跡的經(jīng)驗(yàn)圖層;匝道與路口通行的安全圖層;紅綠燈和動態(tài)事件構(gòu)成的實(shí)時圖層。在圖層疊加的情況下,LD 地圖對于安全的理解,對比無圖化部隊明顯更進(jìn)一步。

“全國都能開,只是基礎(chǔ)。智駕要像人一樣開,比人更安全。未來大家打開百度地圖看到有車道級導(dǎo)航的地方,就一定可以放心開 PPA?!?/span>

SIMO:端側(cè)大模型是未來語音助手方向

“為什么其它車型同樣用上 8295 ,卻做不到極越 01 這樣的車內(nèi)語音體驗(yàn)?”百度語音首席架構(gòu)師賈磊,發(fā)出了這樣一段靈魂質(zhì)疑。

網(wǎng)絡(luò)不穩(wěn)定,導(dǎo)致語音助手的反應(yīng)速度慢;有限的算力,讓語音助手的上限變得一眼望盡;語音對話采集,其中的隱私風(fēng)險,現(xiàn)代人又防不勝防。

有基于此,搭載離線的端側(cè)大模型,能夠有效彌補(bǔ)上述車內(nèi)交互中的痛點(diǎn)。賈磊為我們在系統(tǒng)和算法上詳細(xì)講解了一波:

首先是系統(tǒng)創(chuàng)新上,極越語音團(tuán)隊將整個語音交互系統(tǒng)“搬進(jìn)”了車載 NPU 中。這樣做的好處是帶來了更快的語音交互響應(yīng)速度——將聲學(xué)模型、語言模型、置信度和語義解析都放進(jìn)了一體化的建模中,接收車內(nèi)人員指令后,能夠一次性并行向系統(tǒng)輸出結(jié)果。

其次是算法,極越語音團(tuán)隊創(chuàng)造了全新 smlta2 聲學(xué)建模技術(shù),將中/英文、普通話/方言的模型都進(jìn)行了統(tǒng)一;而針對后續(xù) 6/7 座車型的多音區(qū)算力壓力,語音團(tuán)隊還進(jìn)行了一波“減壓”——將原先需要分散再增強(qiáng)識別的音頻素材,整合進(jìn)一種波束,做到了多合一的情況下依舊能準(zhǔn)確識別輸出。

而在最后,賈磊預(yù)告了一個讓我們意想不到的操作——利用視覺感知與語音融合的多模態(tài)交互技術(shù)即將上車。

在加入視覺感知后,系統(tǒng)可以通過觀察發(fā)出指令者的唇動特征,進(jìn)行同向的干擾聲源消除,提升抗噪能力;同時確定指令者方位,還能提升定向的拾音效果。

編輯總結(jié)

“昨天的領(lǐng)先只是暫時,今天的領(lǐng)先已在路上?!蔽曳浅O矚g賈磊在語音篇章中的這頁 PPT,沒有永恒領(lǐng)先的對手,只有步步上爬的登山者。

此時此刻恰如彼時彼刻,當(dāng)我們還在為過去新勢力們?nèi)〉玫南冗M(jìn)技術(shù)喝彩時,今日已然是更先進(jìn)技術(shù)加入這場內(nèi)卷風(fēng)暴的時間。但正如最后一句話所言,“最強(qiáng)的技術(shù)還在明天?!边@是所有智能化團(tuán)隊的統(tǒng)一追求,所謂的全國都能開,是門票,也是一輪新的起點(diǎn)。

就讓我們看看,極越在 AI DAY 的大放異彩后,還能為我們帶來何許驚喜吧。

來源:第一電動網(wǎng)

作者:新出行

本文地址:http://ewshbmdt.cn/carnews/pingce/224021

返回第一電動網(wǎng)首頁 >

收藏
40
  • 分享到:
發(fā)表評論
新聞推薦
熱文榜
日排行
周排行
第一電動網(wǎng)官方微信

反饋和建議 在線回復(fù)

您的詢價信息
已經(jīng)成功提交我們稍后會聯(lián)系您進(jìn)行報價!

第一電動網(wǎng)
-->