国产精品久久久久久久免费看,国产成人麻豆亚洲综合无码精品,国产精品白丝av嫩草影院,国产成人亚洲精品无码h在线 ,大又大又粗又硬又爽少妇毛片

  1. 首頁(yè)
  2. 大牛說(shuō)
  3. DeepSeek將如何影響智駕?

DeepSeek將如何影響智駕?

去年12月,DeepSeek上線并開源了DeepSeek V3/ R1/Janus Pro,隨后多個(gè)云平臺(tái)宣布上線DeepSeek大模型。從2月份開始,多家汽車相關(guān)企業(yè)開始宣布接入DeepSeek,用于賦能不同領(lǐng)域的用戶體驗(yàn),但更多的集中表現(xiàn)在云端模型、座艙交互AI以及渠道服務(wù)方面。

北汽極狐在座艙領(lǐng)域接入DeepSeek,優(yōu)化問(wèn)答。不過(guò)北汽還接入了豆包、MiniMax等多個(gè)大模型。

筆者也在撰稿時(shí)讓DeepSeek和ChatGPT同時(shí)整理DeepSeek與整車企業(yè)的合作狀態(tài)(輸入問(wèn)題為:deepseek和哪些汽車企業(yè)建立了合作,合作內(nèi)容是什么,整合到一張表格里邊)。

顯示結(jié)果如下。在一次問(wèn)答中,兩者均給出了10家合作動(dòng)態(tài)。而真實(shí)情況遠(yuǎn)不止如此,在不進(jìn)行連續(xù)補(bǔ)充提問(wèn)的情況,兩者均出現(xiàn)一些遺漏,但在整理資料方面,DeepSeek的表現(xiàn)基本與ChatGPT相當(dāng),并且中文支持更好。

左側(cè)圖為DeepSeek,右側(cè)圖為ChatGPT

01.

DeepSeek和其背后的技術(shù)

相比于Open AI這些成名已久的大模型,除性能外,DeepSeek的另一優(yōu)勢(shì)在于其較低的訓(xùn)練成本。其V3的訓(xùn)練成本僅用了557.6萬(wàn)的訓(xùn)練成本。當(dāng)然V3的成本并不能一定說(shuō)明其總成本的優(yōu)勢(shì),事實(shí)上對(duì)于其成本具體數(shù)值說(shuō)法不一,但對(duì)其成本的討論熱度就可看出其成本方面確實(shí)存在一定優(yōu)勢(shì)。

除訓(xùn)練成本外,最為關(guān)鍵的是DeepSeek推理成本的降低。 并且和標(biāo)準(zhǔn)的Transformer架構(gòu)相比,并沒有引入特殊的算子,這也就意味著可以快速部署在各類芯片上(當(dāng)然這也是美國(guó)芯片禁令的無(wú)奈之舉),這也是為什么稱幻方是“手?jǐn)]算子的天才”的原因。

來(lái)源:天津大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室

推理成本降低加上輕松部署,加上沒有中文互聯(lián)網(wǎng)的限制,使得AI在一夜間快速普及。各智能終端產(chǎn)品也在一夜間擁抱AI。

而DeepSeek能夠快速崛起的原因,根本還是來(lái)自于其技術(shù)的選擇。在天津大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室發(fā)布的報(bào)告中提到,DeepSeek在模型架構(gòu)上選擇稀疏MoE模型而非稠密模型,在推理模型訓(xùn)練中有效解決R1-Zero問(wèn)題,采用蒙特卡洛估算取代Value模型,將推理與對(duì)齊合為一體。在小模型應(yīng)用中,將大模型的推理能力直接蒸餾到小模型,比小模型直接訓(xùn)練更具規(guī)?;瘍?yōu)勢(shì),也就意味著成本可以更低。

受此帶動(dòng),混合專家(MoE:Mixture-of-Experts)架構(gòu)再次成為行業(yè)的焦點(diǎn)。MoE架構(gòu)即將數(shù)據(jù)分割為多個(gè)Token,然后通過(guò)門控網(wǎng)絡(luò)技術(shù)(Gating Network)把每組數(shù)據(jù)分配到特定的專家模型。這些專家模型專注于處理不同的任務(wù)。MoE架構(gòu)的好處在于提供模型靈活性和效率的同時(shí),也會(huì)顯著降低計(jì)算成本。這也是DeepSeek訓(xùn)練成本低于ChatGPT的核心原因。

DeepSeek MoE示意圖

由無(wú)數(shù)個(gè)專家模型組成的大模型被稱之為教師模型(參數(shù)量大、性能強(qiáng)大),基于此模型可以針對(duì)性蒸餾出不同專業(yè)子模型,子模型也被稱之為學(xué)生模型(輕量級(jí))。

因此不僅是DeepSeek本身,MoE架構(gòu)和蒸餾技術(shù)對(duì)未來(lái)座艙和智駕技術(shù)都將產(chǎn)生深遠(yuǎn)的影響。

02.

認(rèn)識(shí)一下MoE

MoE理論提出時(shí)間很早,在1991年Geoffrey Hinton和Michael I. Jordan就發(fā)表了論文《Adaptive Mixtures of Local Experts》,這也是如今MoE模型引用最早的論文,這也意味著在傳統(tǒng)機(jī)器學(xué)習(xí)時(shí)代,MoE的理念就開始應(yīng)用。

進(jìn)入深度學(xué)習(xí)時(shí)代后,MoE開始在神經(jīng)網(wǎng)絡(luò)中應(yīng)用。2013年12月《Learning Factored Representations in a Deep Mixture of Experts》論文將MoE融合進(jìn)去了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,并設(shè)計(jì)出橫向拓展神經(jīng)網(wǎng)絡(luò)的方法,使其可以隨著網(wǎng)絡(luò)深度的增加實(shí)現(xiàn)指數(shù)級(jí)上升。

真正將MoE應(yīng)用在大參數(shù)模型是Google Brain團(tuán)隊(duì)在2017年發(fā)布的論文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》,訓(xùn)練出了137B參數(shù)的模型。

最大的改進(jìn)在于可以根據(jù)輸入的內(nèi)容,決定采用哪一部分模型進(jìn)行計(jì)算,提升模型計(jì)算的效率。這樣有利于模型規(guī)模增加后,成本不會(huì)出現(xiàn)指數(shù)級(jí)增加。該案例中最大使用了13萬(wàn)個(gè)專家模型。當(dāng)然,后續(xù)在應(yīng)用MoE架構(gòu)時(shí)還會(huì)面臨工程化難題,即如何協(xié)同算力。

進(jìn)入Transformer時(shí)代后,MoE繼續(xù)得到應(yīng)用。2020年6月,Google發(fā)布《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》,把FFN層替換成MoE層。2021年1月,Google緊接著發(fā)布了《Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》,進(jìn)一步提升了模型的參數(shù)量,達(dá)到1.6T。最大的改變是只為每個(gè)Token分配一個(gè)專家模型而非此前的多個(gè),使得門控網(wǎng)絡(luò)(Gating Network)可以用BP直接訓(xùn)練。

并提出了容量因子(Capacity Factor)的概念。原理上來(lái)看,模型計(jì)算時(shí)希望最大限度讓每個(gè)專家模型拿到均分的Token,以最大限度發(fā)揮機(jī)器算力。但實(shí)際情況Tokens是沒有辦法被均分的。因此就需要為每個(gè)專家模型分配一個(gè)緩沖區(qū)(buffer),buffer的大小等于平均分配到每個(gè)專家模型的Token乘以Capacity Factor。如果buffer溢出,直接將Token丟棄,相當(dāng)于跳過(guò)該FFN層的計(jì)算。

對(duì)應(yīng)的,通過(guò)容量因子,可以實(shí)現(xiàn)計(jì)算速度和訓(xùn)練質(zhì)量的trade-off。即加大容量因子會(huì)保證每個(gè)Token得到計(jì)算,但計(jì)算會(huì)變慢。減少容量因子可以加速訓(xùn)練,但會(huì)導(dǎo)致更多的Token被丟棄。

Switch Transformer主要的成就在于在工程上驗(yàn)證了MoE在大型Transformer模型上的效果,不再僅僅停留在理論層面。 在計(jì)算量不變的調(diào)節(jié)下加速模型訓(xùn)練,提升模型效果。對(duì)MoE的應(yīng)用有著巨大的推進(jìn)作用,對(duì)后續(xù)的scaling law、蒸餾做了很多詳細(xì)的探索,奠定了技術(shù)的方向和基礎(chǔ)。

2022年Google再次發(fā)布了ST-MoE模型,《ST-MoE: Designing Stable and Transferable Sparse Expert Models》,進(jìn)一步推進(jìn)MoE模型的發(fā)展。ST-MoE主要解決兩個(gè)問(wèn)題,一是訓(xùn)練過(guò)程中的不穩(wěn)定。二是特定任務(wù)的小數(shù)據(jù)集微調(diào)預(yù)訓(xùn)練任務(wù)(fine-tune)上表現(xiàn)不佳,與通用大數(shù)據(jù)集訓(xùn)練(pre-train)差異明顯。為了解決這些問(wèn)題,ST-MoE提出了新的loss,即router z-loss,提出模型的穩(wěn)定性。ST-MoE模型也提出一些手段解決Fine-tune效果不佳的問(wèn)題,主要解決過(guò)擬合難題。提出了兩個(gè)方向,一是只更新模型部分參數(shù),二是使用于Fine-tune Dense模型不一樣的超參數(shù)。

ST-MoE模型在工程化繼續(xù)向前推進(jìn) ,但考慮到其時(shí)間段,模型依然是Encoder-Decoder架構(gòu)。如今,架構(gòu)更多是Decoder-only架構(gòu),即純自回歸任務(wù)訓(xùn)練。

2021年12月,AI行業(yè)進(jìn)入GPT時(shí)代,Google也發(fā)布了GLaM,《GLaM: Efficient Scaling of Language Models with Mixture-of-Experts》,訓(xùn)練出了最大為1.2T參數(shù)量的Decoder-only模型,MoE模型正式在Decoder-only架構(gòu)中使用。

可以看出經(jīng)過(guò)多年的發(fā)展,MoE模型在理論和工程化方面都得到了提升和完善,在模型效果、訓(xùn)練速度和算力成本方面都表現(xiàn)出較大的優(yōu)勢(shì)。但Fine-tune效果不佳的問(wèn)題也一直在存在,需要行業(yè)繼續(xù)去解決。Google在MoE領(lǐng)域是絕對(duì)的先驅(qū)者、拓荒者。

(本章節(jié)內(nèi)容參考自知乎,作者:Verlocksss)

隨著技術(shù)的發(fā)展,2023年開始開源的MoE模型開始向業(yè)內(nèi)開放。

2023年12月,法國(guó)公司Mistral AI發(fā)布了全球首個(gè)開源MoE模型,Mixtral 8*7B,采用decode-only架構(gòu)。2024年1月,幻方量化發(fā)布《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》,也是國(guó)內(nèi)第一個(gè)開源的MoE模型。

隨著開源生態(tài)的建立,MoE高性價(jià)比的特性凸顯,2024年之后,MoE迎來(lái)大發(fā)展,僅上半年全球發(fā)布的MoE模型就超過(guò)20多個(gè),過(guò)往三年總量才10個(gè)左右。MoE的使用傾向也不盡相同,有些企業(yè)采用MoE提升大模型性能,有些企業(yè)則利用MoE低成本的優(yōu)勢(shì)加速其AI產(chǎn)品的應(yīng)用。

DeepSeek的成功,把MoE在一次推到了前所未有的高度,證明了其工程化的可行性。這是因?yàn)樵谝酝?,包括MLB、FP8訓(xùn)練、MoE all-to-all通信、MTP等技術(shù)雖然早已提出,但從未在如此大的模型中得到協(xié)同創(chuàng)新,更未有開源的模型出現(xiàn)。

03.

DeepSeek及技術(shù)在智駕領(lǐng)域應(yīng)用

從2024年開始,在AI技術(shù)的推動(dòng)下,智能汽車進(jìn)入AI定義汽車元年。各類AI技術(shù)或應(yīng)用將在汽車中得到嘗試。

拋開營(yíng)銷服務(wù)領(lǐng)域,汽車中DeepSeek落地最快的云端模型,車端領(lǐng)域是座艙和智駕。云端本身就已探索各類大模型的應(yīng)用,座艙則直接可以通過(guò)聯(lián)網(wǎng)接入云端,甚至在座艙直接部署一個(gè)端側(cè)小模型提升用戶語(yǔ)音問(wèn)答體驗(yàn)(如果算力、內(nèi)存、帶寬允許)。

其實(shí)早在DeepSeek大火之前,開源MoE模型便已出現(xiàn),MoE模型在車載領(lǐng)域應(yīng)用的時(shí)間段要早于DeepSeek。

2024年10月,小鵬在AI技術(shù)分享會(huì)上便提到了其端到端架構(gòu)即車端大模型是基于其云端大模型蒸餾所得,據(jù)了解云端模型架構(gòu)即采用的是MoE。理想汽車CEO宣布轉(zhuǎn)型進(jìn)入AI領(lǐng)域后,據(jù)透露其Mind GPT模型也將采用MoE模型和Transformer結(jié)合。并且理想汽車還與上海期智研究院、復(fù)旦大學(xué)推出STR2。STR2面向自動(dòng)駕駛領(lǐng)域規(guī)劃控制領(lǐng)域,通過(guò)結(jié)合Vision Transformer編碼器和MoE架構(gòu),實(shí)現(xiàn)對(duì)復(fù)雜交通環(huán)境的深度學(xué)習(xí)和有效規(guī)劃。

DeepSeek的出現(xiàn)加快了MoE的進(jìn)程,配合蒸餾技術(shù),為智駕技術(shù)打開了想象空間。

據(jù)了解,DeepSeek對(duì)智駕的影響主要有兩個(gè)方向。一是加速云端智駕模型性能提升(訓(xùn)練教師模型,已經(jīng)在推進(jìn)中),二是車端模型優(yōu)化(部署學(xué)生模型,探索過(guò)程中)。

在云端,主要的做法是基于當(dāng)前智駕企業(yè)積累的數(shù)據(jù)庫(kù),選用DeepSeek的開源模型做數(shù)據(jù)生成來(lái)完善場(chǎng)景構(gòu)建。主要的應(yīng)用方向有三個(gè),分別是場(chǎng)景理解、感知融合和軌跡規(guī)劃。

采用DeepSeek后,一方面利用其模型性能可以節(jié)省標(biāo)注成本。有業(yè)內(nèi)人士指出,可以節(jié)省約90%的標(biāo)注成本,還可以生成海量的增強(qiáng)數(shù)據(jù)。比如經(jīng)驗(yàn)豐富的司機(jī)駕駛風(fēng)格數(shù)據(jù),通過(guò)與模型生產(chǎn)的軌跡進(jìn)行對(duì)比,可以評(píng)估軌跡生成結(jié)果。并且還有利于提升極端路況的表現(xiàn),這點(diǎn)在城市NOA中尤其適用。

在功能應(yīng)用上,相比于感知融合,軌跡規(guī)劃方面的進(jìn)展預(yù)計(jì)會(huì)更快。這是因?yàn)橐曈X部分涉及到位置坐標(biāo)表示,對(duì)精度要求更高。DeepSeek作為語(yǔ)言模型對(duì)此描述比較模糊,存在FP8精度相對(duì)較差的問(wèn)題。比如車道線的對(duì)比,雖然效率有著顯著提升,但誤差增加,短期內(nèi)無(wú)法滿足要求。但可以通過(guò)其語(yǔ)言部分與視覺結(jié)果做對(duì)比,以更好的實(shí)現(xiàn)軌跡預(yù)測(cè)。

當(dāng)前由于時(shí)間進(jìn)度原因,云端模型還在接入部署階段。最大的挑戰(zhàn)在于教師模型的完善,借助包括DeepSeek等多個(gè)大模型技術(shù)來(lái)優(yōu)化性能,在這個(gè)過(guò)程中一些特殊場(chǎng)景的數(shù)據(jù)需要同步挖掘。預(yù)計(jì)在今年下半年會(huì)有相關(guān)企業(yè)公布進(jìn)展。

在車端方面,主要的做法是借助DeepSeek所展示出的技術(shù)從教師模型中蒸餾得到學(xué)生模型,無(wú)需單獨(dú)對(duì)其進(jìn)行訓(xùn)練(理想情況)。

在這個(gè)過(guò)程中需要評(píng)估芯片算子的框架,當(dāng)前進(jìn)展較快的主要是英偉達(dá)和華為的芯片,地平線芯片還在適配中。然后便是算法移植,將學(xué)生模型部署在車端芯片中。

從進(jìn)度來(lái)看,車端模型的適配和部署還在推進(jìn)中,一方面要適配不同的芯片,另外還需評(píng)估模型部署完成后,車端模型實(shí)際的表現(xiàn)。在這個(gè)過(guò)程中,也可以直接借用DeepSeek的一些小模型,比如目標(biāo)識(shí)別、語(yǔ)義分割等作為現(xiàn)有模型的補(bǔ)充。

04.

對(duì)未來(lái)智駕行業(yè)的影響

首先是降低云端訓(xùn)練成本,即降低算力租賃的費(fèi)用,實(shí)現(xiàn)系統(tǒng)降本。

基于教師模型可以蒸餾得到多種學(xué)生模型,不同版本智駕方案無(wú)需重復(fù)開發(fā),開發(fā)效率也會(huì)提升。尤其是會(huì)減少第三方智駕企業(yè)的資金壓力和項(xiàng)目周期壓力。

一旦教師模型趨于成熟穩(wěn)定,中階智駕和高階智駕技術(shù)邊界會(huì)越來(lái)越模糊,理想情況下可以來(lái)源于同一教師模型。屆時(shí),只需要按照功能定義對(duì)應(yīng)的蒸餾出相應(yīng)模型即可。該方向比較依賴教師模型的成熟度,DeepSeek本身無(wú)法作為智駕教師模型使用(上文提到的精度問(wèn)題),因此共用教師模型尚需一定時(shí)日。

其次是車端算力要求的降低。本身DeepSeek的一些小模型便可以直接應(yīng)用于智駕,比如上文提到的語(yǔ)義分割,目標(biāo)識(shí)別等,以優(yōu)化現(xiàn)有模型。長(zhǎng)遠(yuǎn)來(lái)看,基于教師模型蒸餾得到的學(xué)生模型也會(huì)更加精細(xì)化,并且DeepSeek所展示的推理效率也有一定的借鑒意義。這也就意味車端所需的芯片算力要求會(huì)有所降低,行業(yè)希望其可以節(jié)省30%的算力。對(duì)應(yīng)的,現(xiàn)有算力平臺(tái)能夠?qū)崿F(xiàn)的功能也會(huì)增加。個(gè)別企業(yè)表示,基于DeepSeek的技術(shù)路徑甚至可以在單Orin-X上部署L3的功能。

此外,對(duì)艙駕一體的應(yīng)用也有幫助。這取決于教師模型的功能定義,需要將智駕和座艙放在同一模型上進(jìn)行迭代升級(jí)。但目前未看到有明確的技術(shù)動(dòng)向。

End.

DeepSeek的大火證實(shí)了AI技術(shù)在成本可控的情況下,的確存在廣闊的市場(chǎng)需求。促使業(yè)內(nèi)加速探索AI的應(yīng)用場(chǎng)景需求,加強(qiáng)了AI產(chǎn)業(yè)的信心。

對(duì)于汽車而言,一方面DeepSeek的低成本優(yōu)勢(shì)帶來(lái)了降本的方向和可能,尤其加速AI在云端和車端座艙里邊的應(yīng)用。更重要的,DeepSeek背后的技術(shù)理念和工程化實(shí)現(xiàn)方式會(huì)對(duì)現(xiàn)有技術(shù)架構(gòu)體系帶來(lái)啟發(fā),提供新的思路和方向,這點(diǎn)對(duì)智駕尤其有用。

來(lái)源:第一電動(dòng)網(wǎng)

作者:NE時(shí)代

本文地址:http://ewshbmdt.cn/kol/262989

返回第一電動(dòng)網(wǎng)首頁(yè) >

收藏
65
  • 分享到:
發(fā)表評(píng)論
新聞推薦
大牛作者

NE時(shí)代

為新能源時(shí)代而生的汽車產(chǎn)業(yè)服務(wù)平臺(tái),致力于為新能源汽車企業(yè)發(fā)展提供一站式服務(wù) 旗下微信公眾號(hào):NE時(shí)代新能源

  • 707
    文章
  • 27954
    獲贊
閱讀更多文章
熱文榜
日排行
周排行
第一電動(dòng)網(wǎng)官方微信

反饋和建議 在線回復(fù)

您的詢價(jià)信息
已經(jīng)成功提交我們稍后會(huì)聯(lián)系您進(jìn)行報(bào)價(jià)!

第一電動(dòng)網(wǎng)
Hello world!
-->