国产精品久久久久久久免费看,国产成人麻豆亚洲综合无码精品,国产精品白丝av嫩草影院,国产成人亚洲精品无码h在线 ,大又大又粗又硬又爽少妇毛片

  1. 首頁(yè)
  2. 大牛說(shuō)
  3. 自動(dòng)駕駛大模型,是怎么學(xué)習(xí)「世界知識(shí)」的?

自動(dòng)駕駛大模型,是怎么學(xué)習(xí)「世界知識(shí)」的?

近期,科技產(chǎn)業(yè)大佬不約而同地發(fā)出一個(gè)非常強(qiáng)烈的信號(hào):自動(dòng)駕駛走向完全的成熟,必須要被AI大模型重構(gòu)。

中國(guó)工程院院士、清華大學(xué)教授、清華智能產(chǎn)業(yè)研究院(AIR)院長(zhǎng)張亞勤認(rèn)為,「自動(dòng)駕駛是高度復(fù)雜的、最具有挑戰(zhàn)的AI垂直領(lǐng)域問(wèn)題,自動(dòng)駕駛將作為建立其上的垂直模型,最終以端到端的方式實(shí)現(xiàn)?!?/p>

毫末智行CEO顧維灝的觀點(diǎn)是,「未來(lái)的自動(dòng)駕駛系統(tǒng)一定跟人類駕駛員一樣,不但具備對(duì)三維空間的精確感知測(cè)量能力,而且能夠像人類一樣理解萬(wàn)物之間的聯(lián)系、事件發(fā)生的邏輯和背后的常識(shí),并且能基于這些人類社會(huì)的經(jīng)驗(yàn)來(lái)做出更好的駕駛策略。」

百度創(chuàng)始人李彥宏也表達(dá)過(guò)類似觀點(diǎn):「未來(lái)AI原生應(yīng)用一定是多模態(tài)的,在信息世界之外,一定會(huì)重構(gòu)物理世界。自動(dòng)駕駛就是視覺(jué)大模型重構(gòu)物理世界的一個(gè)典型應(yīng)用。大模型會(huì)讓自動(dòng)駕駛能力超越經(jīng)驗(yàn)系統(tǒng)?!?/p>

為什么自動(dòng)駕駛需要被AI大模型重構(gòu)?自動(dòng)駕駛被AI大模型重構(gòu),該怎么做?這是本文想探討的兩個(gè)問(wèn)題。

一、自動(dòng)駕駛為什么要具有“世界知識(shí)”?

理解自動(dòng)駕駛,就需要采用第一性原理,來(lái)還原人類駕駛的過(guò)程,從而理解智能的本質(zhì)。

首先,讓我們還原人類駕駛的過(guò)程。人類和所有動(dòng)物一樣,具有一套功能強(qiáng)大而敏銳靈活的感知覺(jué)系統(tǒng)。

人類視覺(jué)具有深度空間、顏色、紋理的感知能力,也具有理解速度、位移變化、距離的推斷能力,也具有社會(huì)經(jīng)驗(yàn)賦予的語(yǔ)義判斷和邏輯推斷的能力,當(dāng)然不能忽略聽(tīng)覺(jué)的作用,聽(tīng)覺(jué)一定程度彌補(bǔ)視野盲區(qū)的感知信息,能根據(jù)聲音大小、種類來(lái)判斷距離和危險(xiǎn)程度。

人類本身有非常靈活的四肢,可以在有限的地面空間自由移動(dòng)。而車輛的出現(xiàn)則顯著提高了人類移動(dòng)的效率。隨之而來(lái)的代價(jià)是,人類要通過(guò)一定程度的學(xué)習(xí)來(lái)掌握「 開(kāi)車」這么新的行動(dòng)技術(shù)。

人是如何學(xué)會(huì)開(kāi)車的?

  • 第一步,人們要掌握交通規(guī)則和駕駛經(jīng)驗(yàn)。現(xiàn)代交通是由大量的符號(hào)和規(guī)則來(lái)構(gòu)成的交通網(wǎng)絡(luò),從而可以保證高密度車輛的高效、安全的行駛,越是復(fù)雜的交通場(chǎng)景,尤其是人車混行的路口,相對(duì)于的規(guī)則也就越多。

  • 第二步是掌握駕駛技巧,主要是掌握啟停的手腳操作,泊車入位的操作,以及慢速情況下的繞行等。

  • 第三步是實(shí)際的上路,通過(guò)切身經(jīng)驗(yàn)來(lái)體會(huì)加減速度、跟車距離、變道時(shí)機(jī),同時(shí)也實(shí)際理解從理論上學(xué)習(xí)到的駕駛知識(shí)和交通規(guī)則。

正常來(lái)說(shuō),一個(gè)普通人大概幾個(gè)小時(shí)就可以掌握基本操作,幾十個(gè)小時(shí)就可以在實(shí)際道路上比較熟練的行駛,吃上幾次罰單就可以深刻理解交通法規(guī)的價(jià)值,然后用一年左右時(shí)間或一萬(wàn)公里左右就基本可以成為一名“老司機(jī)”。

自動(dòng)駕駛想要真正達(dá)成在任何條件下無(wú)人駕駛的目標(biāo),就必須按照人類老司機(jī)的方式來(lái)處理駕駛?cè)蝿?wù)。這也決定了自動(dòng)駕駛“應(yīng)該”和“不應(yīng)該”的實(shí)現(xiàn)方法。

先說(shuō)不應(yīng)該。

  • 第一,自動(dòng)駕駛以不應(yīng)該過(guò)度依賴激光雷達(dá),視覺(jué)感知本身就可以帶來(lái)最為豐富的駕駛場(chǎng)景,而配合少量的毫米波雷達(dá)或者最多一顆激光雷達(dá)就可以彌補(bǔ)超視距感知的不足。畢竟人類主要依靠視覺(jué)就可以完成駕駛,而多顆攝像頭實(shí)現(xiàn)的環(huán)視效果就能極大提高感知效果。

  • 第二,自動(dòng)駕駛不應(yīng)該以高精地圖的方案來(lái)實(shí)現(xiàn)。高精地圖帶來(lái)了“先驗(yàn)”視角,讓車輛有了對(duì)環(huán)境信息的提前的掌握,但高精地圖顯然也限制了自動(dòng)駕駛的運(yùn)行范圍,提高了運(yùn)行成本,在鮮度不足或者覆蓋范圍之外的地方會(huì)帶來(lái)額外的風(fēng)險(xiǎn)。畢竟人類只要靠自己的感知的判斷就可以完成駕駛,最多依賴導(dǎo)航地圖能夠更有效。

  • 第三,自動(dòng)駕駛不應(yīng)該以AI小模型+人工規(guī)則的方式來(lái)實(shí)現(xiàn)。AI小模型是基于特定問(wèn)題來(lái)執(zhí)行任務(wù)的,比如有專門識(shí)別紅綠燈、車道線的小任務(wù)模型,但是駕駛場(chǎng)景會(huì)遇到種類繁多的感知任務(wù),不可能用小模型的方式去窮盡極端場(chǎng)景;同樣,車輛行駛過(guò)程當(dāng)中遇到的各類任務(wù)也不可能完全用人工規(guī)則寫(xiě)完,遭遇復(fù)雜的博弈場(chǎng)景,系統(tǒng)就很容易“擺爛”或者“失效”。

因此,自動(dòng)駕駛“應(yīng)該”的實(shí)現(xiàn)方式是下面這樣的。

  • 首先,感知模式應(yīng)該是以視覺(jué)為主的多模態(tài),感知能力應(yīng)該是具備通用識(shí)別能力的,無(wú)論是對(duì)于形狀各異、提示信息各異的紅綠燈,還是對(duì)于道路上的各類指示牌、標(biāo)線都有較好的泛化性;

  • 其次,自動(dòng)駕駛的局部路徑規(guī)劃應(yīng)該是實(shí)時(shí)建圖的方式,至少是多次重復(fù)建圖的方式,來(lái)處理當(dāng)前的路徑規(guī)劃任務(wù),就像人類依靠重復(fù)記憶,在多次經(jīng)過(guò)一段道路之后,就會(huì)對(duì)道路結(jié)構(gòu)和轉(zhuǎn)向連接路徑有了內(nèi)生的認(rèn)知,從而可以擺脫導(dǎo)航地圖的幫助。

  • 另外,自動(dòng)駕駛對(duì)自車和其他障礙物的預(yù)測(cè)以及規(guī)劃,要依靠模型的自我學(xué)習(xí)的方式而非規(guī)則的方式,來(lái)理解交通場(chǎng)景中各類障礙物的特點(diǎn)和行動(dòng)意圖,從而更靈活地做出駕駛決策。比如,擋在閃燈鳴笛的救護(hù)車或者消防車前面,是否要主動(dòng)靠邊讓行,遇到前方路口的交通事故,是否要壓實(shí)線變道過(guò)去,遇到前面帶著耳機(jī)在主路上騎行的車手或者行動(dòng)遲緩的老人要不要減速避讓等等,而這些正是人類駕駛所必須掌握的“世界知識(shí)”。

總之,自動(dòng)駕駛系統(tǒng)要想在真實(shí)的物理世界和人類社會(huì)環(huán)境當(dāng)中運(yùn)行,就必要擺脫一些額外的、人為的、過(guò)度的保護(hù)措施,更多的依靠自動(dòng)駕駛系統(tǒng)自身產(chǎn)生的通用智能,擺脫過(guò)去條塊分割的模塊化思路,采用像人類一樣的感知和認(rèn)知判斷的方式和人類一樣的學(xué)習(xí)方式。

過(guò)去二十年,深度學(xué)習(xí)、高精地圖、激光雷達(dá)傳感器、移動(dòng)通信技術(shù)、車路協(xié)同等技術(shù),構(gòu)建了自動(dòng)駕駛的基礎(chǔ)架構(gòu),讓自動(dòng)駕駛在一定條件下開(kāi)始實(shí)現(xiàn),并形成了如今的產(chǎn)業(yè)格局。而AI大模型的出現(xiàn),會(huì)讓自動(dòng)駕駛的技術(shù)架構(gòu)發(fā)生一次顛覆性的重構(gòu),真正有可能達(dá)成自己的最終目標(biāo)。

二、AI大模型正在具有“世界知識(shí)”

哲學(xué)家維特根斯坦在早期的《邏輯哲學(xué)論》中提及了“語(yǔ)言與命題”、“邏輯與世界”的關(guān)系,他指出:“語(yǔ)言是通過(guò)符號(hào)之間的關(guān)系來(lái)表達(dá)意義的”,“語(yǔ)言的意義是通過(guò)語(yǔ)言使用者與其行為來(lái)確定的”,而“語(yǔ)言由命題構(gòu)成,邏輯是對(duì)命題和真值的判斷,而命題是關(guān)于事實(shí)的描述,事實(shí)又存在于世界之中?!?/p>

由此,維特根斯坦通過(guò)語(yǔ)言建立起了邏輯和世界的橋梁。這些觀點(diǎn)也成為我們檢視人工智能能力的坐標(biāo)。

當(dāng)人工智能技術(shù)進(jìn)入到大模型(Foundation Model)階段,率先實(shí)現(xiàn)的就是大語(yǔ)言模型(LLMs)的突破。ChatGPT的橫空出世帶給世人一種錯(cuò)覺(jué),那就是這種生成式AI可以有模有樣地產(chǎn)生高質(zhì)量的對(duì)話、文本,其中真的體現(xiàn)了“智能”。

不過(guò),ChatGPT所生成的語(yǔ)言內(nèi)容,本質(zhì)是根據(jù)前面語(yǔ)詞對(duì)下一個(gè)語(yǔ)詞的預(yù)測(cè),我們盡管可能從中看到有關(guān)“事實(shí)”的描述,也能看到一定程度的推理,但仍然并不妨礙AI大模型在做一只“隨機(jī)鸚鵡”,也就是AI并沒(méi)有具有對(duì)現(xiàn)實(shí)世界的真正理解,它只是在“表演”對(duì)知識(shí)的理解和對(duì)世界的描述。

顯然,這并不是我們對(duì)人工智能的期望。因此,大模型應(yīng)該升級(jí)為多模態(tài)的,即大模型不僅能夠讀懂文本中的意義,同時(shí)也能看懂人類世界的事實(shí)和知識(shí),而且可以將二者聯(lián)系起來(lái)。

在ChatGPT基礎(chǔ)上,GPT-3.5和GPT-4模型都可以開(kāi)始基于圖像進(jìn)行分析和對(duì)話。而最新的GPT-4V(ision)這一大型多模態(tài)模型(LMM)也被公布出來(lái),成為理解AI具有世界知識(shí)的新技術(shù)樣本。

多模態(tài)模型的通用性,必然要求系統(tǒng)能夠處理不同輸入模態(tài)的任意組合。根據(jù)微軟公布的報(bào)告,GPT-4V 在理解和處理任意混合的輸入圖像、子圖像、文本、場(chǎng)景文本和視覺(jué)指針等多模態(tài)輸入,均表現(xiàn)出了前所未有的能力。而且,GPT-4V 在開(kāi)放世界視覺(jué)理解、視覺(jué)描述、多模態(tài)知識(shí)、常識(shí)、場(chǎng)景文本理解、文檔推理、編碼、時(shí)間推理、抽象推理、情感理解等不同領(lǐng)域和任務(wù)中也都表現(xiàn)出了令人印象深刻的人類水平的能力。

用比較通俗的話來(lái)說(shuō),GPT大模型的技能樹(shù)已經(jīng)拉滿,不僅局限在處理文本內(nèi)的復(fù)雜推理關(guān)系,同時(shí)能夠讀懂圖像,并且理解圖像當(dāng)中的深層涵義,還能夠?qū)ζ渲械暮x做出細(xì)致解釋。這相當(dāng)于AI大模型正在打通語(yǔ)言和世界的隔閡,并且從中建立邏輯推理和對(duì)應(yīng)關(guān)系。

我們簡(jiǎn)單舉例來(lái)看下。

先看什么是多模態(tài)的輸入(MultiModal Input),GPT-4V支持純文本、單個(gè)圖像-文本對(duì)、交錯(cuò)圖像-文本的輸入。

如上圖所示,在Prompt里給出了單個(gè)或多個(gè)圖像-文本對(duì),GPT-4V不僅從圖像中找到了Prompt中對(duì)應(yīng)的答案,并且還指出這些答案所在的位置。

下圖是視覺(jué)指向和視覺(jué)參考提示的例子。圖中用高亮線條、箭頭圈出或指向的區(qū)域稱為GPT-4V要理解的目標(biāo)。

從圖中給出的結(jié)果可以看到,GPT-4V能夠指出這些所指的內(nèi)容,并且可以判斷他們與整個(gè)圖形其他東西的關(guān)系。并且可以回答圖形當(dāng)中的相關(guān)問(wèn)題。

有了指令跟隨、思維鏈、上下文少樣本學(xué)習(xí)等這些LLM當(dāng)中的test-time技術(shù),GPT-4V就可以很好地用文本來(lái)理解和解釋視覺(jué)(物理)世界。

其中,GPT-4V可以區(qū)分不同域圖像,并進(jìn)行識(shí)別不同的名人,并能詳細(xì)描述名人的職業(yè)、行為、背景、事件等信息。

除了識(shí)別名人外,GPT-4V能準(zhǔn)確識(shí)別測(cè)試圖像中的地標(biāo)、菜肴、常見(jiàn)的疾病,同時(shí)給出生動(dòng)詳細(xì)的描述,指出菜肴的成分和烹飪技術(shù),以及描述疾病并給出治療建議。甚至于,當(dāng)Prompt的問(wèn)題與圖片事實(shí)不符,GPT-4V也能進(jìn)行反事實(shí)推理。

更進(jìn)一步,GPT-4V能夠理解圖像中人與物體之間的空間關(guān)系,例如,GPT-4V識(shí)別飛盤和人之間的空間關(guān)系,行駛在公路上的汽車和行人的位置、大小比例的關(guān)系;能夠成功地定位和識(shí)別圖像中的個(gè)體,然后為每個(gè)個(gè)體提供簡(jiǎn)潔的描述;也能夠確定圖像中指定物體的數(shù)量。

例如上圖就可以成功定位四個(gè)人物的位置關(guān)系,并且獲取四個(gè)人的人名,并且給他們做出簡(jiǎn)潔的描述。

以上如果是常規(guī)操作,后面GPT-4V的操作逐漸走向離譜,包括但不限于對(duì)多模態(tài)(圖文對(duì))信息的理解和常識(shí)的推理。

例如,解釋需要很多背景信息才能讀懂的梗圖和笑話,對(duì)場(chǎng)景下的文本、表格、圖文進(jìn)行推理、計(jì)算,對(duì)流程圖、圖表、報(bào)告進(jìn)行閱讀、總結(jié)和提煉,對(duì)多語(yǔ)言文本進(jìn)行識(shí)別、翻譯,甚至于從人的面部表情中識(shí)別和解讀人的情緒,理解不同的視覺(jué)內(nèi)容如何激發(fā)情緒,根據(jù)所需的情緒和情感生成適當(dāng)?shù)奈谋据敵?;以及可以?duì)視頻內(nèi)容進(jìn)行理解和預(yù)測(cè)。

當(dāng)這一切都可以完成,那么是不是可以應(yīng)用在自動(dòng)駕駛場(chǎng)景的理解當(dāng)中呢?GPT-4V顯然可以。

下面是知乎網(wǎng)友Naiyan Wang 應(yīng)用GPT-4V對(duì)交通場(chǎng)景所做的測(cè)試*,包括對(duì)前方車輛障礙物的識(shí)別、標(biāo)記和預(yù)測(cè)。如下圖。

GPT-4V給出結(jié)果如下:

描述了三輛卡車的基本情況,以及發(fā)現(xiàn)了中間道路上遺留的未知物體,并進(jìn)行了推測(cè)。

下面是對(duì)一個(gè)極端天氣下的行駛場(chǎng)景的描述,Prompt要求做出駕駛策略的建議。

從GPT-4V描述中看出,場(chǎng)景識(shí)別非常細(xì)致,能夠認(rèn)出卡車尾部的霧氣,是因?yàn)榻?jīng)過(guò)水坑所產(chǎn)生的,并且給出了非常符合物理世界規(guī)律的駕駛策略。

以下可以看到一個(gè)更復(fù)雜(極端)的例子。擋風(fēng)玻璃前面是一個(gè)揮舞著棒球桿的男子。可以看到,GPT-4V給出的描述非常準(zhǔn)確,能夠識(shí)別到男子的危險(xiǎn)動(dòng)作和情緒,并且給出了非常中肯的駕駛策略。

測(cè)試者認(rèn)為,GPT-4V具有強(qiáng)大的泛化性能,適當(dāng)?shù)腜rompt應(yīng)當(dāng)可以完全發(fā)揮出GPT-4V的實(shí)力。解決語(yǔ)義上的corner case應(yīng)該非??善?,但幻覺(jué)的問(wèn)題會(huì)仍然困擾著一些和安全相關(guān)場(chǎng)景中的應(yīng)用。合理使用這樣的大模型可以大大加快L4乃至L5自動(dòng)駕駛的發(fā)展,然而是否LLM一定是要直接開(kāi)車?尤其是端到端開(kāi)車,仍然是一個(gè)值得商榷的問(wèn)題。

這里可以看下一些自動(dòng)駕駛公司的做法。

三、引入大語(yǔ)言模型,自動(dòng)駕駛開(kāi)始具備世界知識(shí)

要把大語(yǔ)言模型的能力下放到自動(dòng)駕駛上面,主要面臨攻克兩個(gè)難題:

一是在紛繁復(fù)雜的交通場(chǎng)景中具備“見(jiàn)多識(shí)廣”的感知理解能力,另外就是在參與者眾多的行駛過(guò)程具備“靈活多變”的認(rèn)知決策能力。

第一個(gè)能力,要求自動(dòng)駕駛系統(tǒng)認(rèn)得東西多、準(zhǔn)、快,要清晰地知道這些東西的相對(duì)位置、速度,材質(zhì)、紋理、語(yǔ)義信息。第二個(gè)能力,要求準(zhǔn)確地知道這些東西的意圖、軌跡和接下來(lái)的變化趨勢(shì),從而指導(dǎo)決策和控制輸出。

毫末的自動(dòng)駕駛大模型DriveGPT,是通過(guò)視覺(jué)大模型,在海量無(wú)標(biāo)注的自動(dòng)駕駛數(shù)據(jù)集上,采用自監(jiān)督預(yù)訓(xùn)練的方式構(gòu)建圖像表征,讓CV Backbone大幅提升視覺(jué)表征學(xué)習(xí)能力。

其次,DriveGPT在CV Backbone提取到視覺(jué)特征基礎(chǔ)上,再引入NeRF技術(shù),通過(guò)預(yù)測(cè)視頻下一幀的自監(jiān)督方式來(lái)構(gòu)建4D編碼空間,即將一個(gè)Clips序列的前K幀的部分輸入模型,用NeRF渲染出后續(xù)的H幀,構(gòu)建起一個(gè)帶有時(shí)序的4D特征空間。

其中,DriveGPT在過(guò)程中引入了圖文多模態(tài)大模型,經(jīng)過(guò)4D編碼器將視頻中的時(shí)空特征編碼到4D特征空間后,在通過(guò)多模態(tài)大模型,將視覺(jué)特征對(duì)齊到文本語(yǔ)義特征,最后通過(guò)NeRF渲染器,以預(yù)測(cè)未來(lái)視頻的方式,用來(lái)監(jiān)督4D特征空間中對(duì)世界的感知能力。

如此,圖文多模態(tài)模型的引入就讓4D空間中的各類事物具有了語(yǔ)義信息。從而DriveGPT先構(gòu)建起一個(gè)見(jiàn)多識(shí)廣的自動(dòng)駕駛通用感知大模型,實(shí)現(xiàn)在一個(gè)模型中同時(shí)學(xué)習(xí)到空間的三維幾何結(jié)構(gòu)、語(yǔ)義分割和紋理信息,也就具備識(shí)別萬(wàn)物的能力,也由此更好地完成目標(biāo)檢測(cè)、目標(biāo)跟蹤、深度預(yù)測(cè)等各類感知任務(wù)。

舉個(gè)例子,當(dāng)車輛前方出現(xiàn)低垂的柳條或者被風(fēng)卷起的塑料袋,原有的視覺(jué)感知會(huì)將其識(shí)別為一般障礙物,而可能出現(xiàn)幽靈剎車的問(wèn)題。而借助通用感知大模型的萬(wàn)物識(shí)別能力,就能理解前方事物的具體語(yǔ)義信息,根據(jù)其物理信息判斷是否可以繼續(xù)行駛。

第三,感知的結(jié)果將作為輸出,進(jìn)入認(rèn)知模塊,通過(guò)引入大語(yǔ)言模型LLM,讓自動(dòng)駕駛系統(tǒng)能看懂駕駛環(huán)境,理解社會(huì)常識(shí),從而具備世界知識(shí),也就是既能認(rèn)識(shí)這些道路場(chǎng)景的元素是什么,也能知道其包含的物理、社會(huì)屬性,從而做出更好預(yù)測(cè)和決策規(guī)劃。

具體過(guò)程是這樣:先將感知大模型的結(jié)果解碼得到當(dāng)前的感知結(jié)果,再結(jié)合自車信息和駕駛意圖,構(gòu)造典型的Drive Prompt(駕駛提示語(yǔ)),再將這些Prompt輸入大語(yǔ)言模型,讓大語(yǔ)言模型對(duì)當(dāng)前的自動(dòng)駕駛環(huán)境做出解釋。例如為什么要加速、為什么要減速、為什么要變道等,讓大語(yǔ)言模型能夠像駕校教練或者陪練一樣,對(duì)駕駛行為做出詳細(xì)的解釋。

最后,再將駕駛解釋和駕駛建議作為prompt輸入到生成式大模型,來(lái)讓自動(dòng)駕駛大模型獲得外部大語(yǔ)言模型內(nèi)的人類知識(shí),從而具備常識(shí),才能理解人類社會(huì)的各種明規(guī)則或者潛規(guī)則,才能跟老司機(jī)一樣,與各類障礙物進(jìn)行更好地交互,更好地對(duì)未來(lái)的駕駛策略進(jìn)行規(guī)劃,輸出控制結(jié)果。

四、掌握世界知識(shí):自動(dòng)駕駛將抵達(dá)目標(biāo)點(diǎn)

回到開(kāi)頭,從第一性原理出發(fā),人類是如何開(kāi)車的??jī)?yōu)秀的人類司機(jī)在駕駛中,不僅僅能看到交通環(huán)境的各種場(chǎng)景,而且還能很好理解這些場(chǎng)景中的路牌、路標(biāo)、車輛、行人分別代表什么含義,而且還能準(zhǔn)確推理、判斷這些物體的運(yùn)動(dòng)趨勢(shì)、意圖和危險(xiǎn)程度。

比如,當(dāng)司機(jī)注意到前面有一個(gè)不斷向后扭頭觀察的騎行者,就能判斷他是想要變道或者橫穿過(guò)去,就會(huì)主動(dòng)禮讓,而如果遇到一個(gè)按照穩(wěn)定在直線騎行的成年人就可以試著超過(guò)去,但如果是遇到帶著頭盔、耳機(jī)的年輕騎行者或者是年級(jí)較大的老人就應(yīng)該減速,從而小心應(yīng)對(duì)。這些在真實(shí)物理世界當(dāng)中的社會(huì)知識(shí),是需要在長(zhǎng)期的駕駛過(guò)程中結(jié)合生活經(jīng)驗(yàn)融會(huì)貫通的。

對(duì)于自動(dòng)駕駛系統(tǒng)來(lái)說(shuō),如果把不同類型的移動(dòng)的行人、車輛都一視同仁地看作同等類型的障礙物,就很難做出擬人的駕駛策略,要么會(huì)非常保守,要么就會(huì)非常激進(jìn)。

因此,自動(dòng)駕駛系統(tǒng)不僅要學(xué)習(xí)如何區(qū)分感知到的物體,而且要逐漸理解這些物體分別具有的含義,除了學(xué)習(xí)駕駛者在相應(yīng)場(chǎng)景下的駕駛決策行為,還要理解駕駛者為什么會(huì)做出這種決策。

再舉一個(gè)現(xiàn)實(shí)的案例。

不久前,美國(guó)自動(dòng)駕駛公司Cruise的Robotaxi在舊金山的開(kāi)放道路上開(kāi)始了商業(yè)運(yùn)營(yíng)。結(jié)果沒(méi)幾天,有一臺(tái)車陷到了一段沒(méi)有干透的水泥路里。

那為啥這臺(tái)Robotaxi會(huì)沖進(jìn)去?就是因?yàn)樗母兄镒R(shí)別到那是一段平坦的路面,但是不知道車在這種沒(méi)干透的水泥路會(huì)陷進(jìn)去,這是普通人都知道的物理常識(shí),但顯然這臺(tái)Robotaxi還沒(méi)有學(xué)會(huì)。

在城市場(chǎng)景里,其實(shí)有著類似這樣無(wú)窮無(wú)盡的極端場(chǎng)景。所以自動(dòng)駕駛想要開(kāi)的好、變得真正像人一樣聰明地駕駛,就必須掌握大量的世界知識(shí)。

目前來(lái)看,大語(yǔ)言模型確實(shí)已經(jīng)存儲(chǔ)了大量的世界知識(shí),自動(dòng)駕駛將大語(yǔ)言模型引入進(jìn)來(lái),從中能夠?qū)W習(xí)到這些常識(shí),以后就可以知道沒(méi)有干透的馬路不能開(kāi)上去,遇到馬路邊的小孩子要比成年人更需要注意減速避讓,遇到戴頭盔的電動(dòng)車的騎行者也需要提高警惕。

最后總結(jié)下,AI大模型正在幫助自動(dòng)駕駛獲得認(rèn)識(shí)萬(wàn)物的通用感知,以及獲得世界知識(shí)的通用認(rèn)知能力。一些大模型展現(xiàn)出來(lái)的圖文解釋能力,以及引入多模態(tài)模型和大語(yǔ)言模型的實(shí)踐,正是這一自動(dòng)駕駛技術(shù)架構(gòu)正在被重構(gòu)的前沿實(shí)踐。

可以預(yù)見(jiàn),接下來(lái)自動(dòng)駕駛領(lǐng)域?qū)?huì)出現(xiàn)更多大模型的實(shí)踐,給出更具技術(shù)潛力的端到端方案。

* 文內(nèi)第二部分引用的交通場(chǎng)景測(cè)試案例,來(lái)自于Naiyan Wang在《GPT-4V在自動(dòng)駕駛中初探》中的分享,原文鏈接:https://zhuanlan.zhihu.com/p/66094051

來(lái)源:第一電動(dòng)網(wǎng)

作者:HiEV

本文地址:http://ewshbmdt.cn/kol/213672

返回第一電動(dòng)網(wǎng)首頁(yè) >

收藏
11
  • 分享到:
發(fā)表評(píng)論
新聞推薦
熱文榜
日排行
周排行
第一電動(dòng)網(wǎng)官方微信

反饋和建議 在線回復(fù)

您的詢價(jià)信息
已經(jīng)成功提交我們稍后會(huì)聯(lián)系您進(jìn)行報(bào)價(jià)!

第一電動(dòng)網(wǎng)
Hello world!
-->