DeepSeek將如何影響智駕？

第一電動大牛作者 NE時(shí)代 2025-02-18 09:00

去年12月，DeepSeek上線并開源了DeepSeek V3/ R1/Janus Pro，隨后多個(gè)云平臺宣布上線DeepSeek大模型。從2月份開始，多家汽車相關(guān)企業(yè)開始宣布接入DeepSeek，用于賦能不同領(lǐng)域的用戶體驗(yàn)，但更多的集中表現(xiàn)在云端模型、座艙交互AI以及渠道服務(wù)方面。

北汽極狐在座艙領(lǐng)域接入DeepSeek，優(yōu)化問答。不過北汽還接入了豆包、MiniMax等多個(gè)大模型。

筆者也在撰稿時(shí)讓DeepSeek和ChatGPT同時(shí)整理DeepSeek與整車企業(yè)的合作狀態(tài)（輸入問題為：deepseek和哪些汽車企業(yè)建立了合作，合作內(nèi)容是什么，整合到一張表格里邊）。

顯示結(jié)果如下。在一次問答中，兩者均給出了10家合作動態(tài)。而真實(shí)情況遠(yuǎn)不止如此，在不進(jìn)行連續(xù)補(bǔ)充提問的情況，兩者均出現(xiàn)一些遺漏，但在整理資料方面，DeepSeek的表現(xiàn)基本與ChatGPT相當(dāng)，并且中文支持更好。

左側(cè)圖為DeepSeek，右側(cè)圖為ChatGPT

01.

DeepSeek和其背后的技術(shù)

相比于Open AI這些成名已久的大模型，除性能外，DeepSeek的另一優(yōu)勢在于其較低的訓(xùn)練成本。其V3的訓(xùn)練成本僅用了557.6萬的訓(xùn)練成本。當(dāng)然V3的成本并不能一定說明其總成本的優(yōu)勢，事實(shí)上對于其成本具體數(shù)值說法不一，但對其成本的討論熱度就可看出其成本方面確實(shí)存在一定優(yōu)勢。

除訓(xùn)練成本外，最為關(guān)鍵的是DeepSeek推理成本的降低。并且和標(biāo)準(zhǔn)的Transformer架構(gòu)相比，并沒有引入特殊的算子，這也就意味著可以快速部署在各類芯片上（當(dāng)然這也是美國芯片禁令的無奈之舉），這也是為什么稱幻方是“手?jǐn)]算子的天才”的原因。

來源：天津大學(xué)自然語言處理實(shí)驗(yàn)室

推理成本降低加上輕松部署，加上沒有中文互聯(lián)網(wǎng)的限制，使得AI在一夜間快速普及。各智能終端產(chǎn)品也在一夜間擁抱AI。

而DeepSeek能夠快速崛起的原因，根本還是來自于其技術(shù)的選擇。在天津大學(xué)自然語言處理實(shí)驗(yàn)室發(fā)布的報(bào)告中提到，DeepSeek在模型架構(gòu)上選擇稀疏MoE模型而非稠密模型，在推理模型訓(xùn)練中有效解決R1-Zero問題，采用蒙特卡洛估算取代Value模型，將推理與對齊合為一體。在小模型應(yīng)用中，將大模型的推理能力直接蒸餾到小模型，比小模型直接訓(xùn)練更具規(guī)?；瘍?yōu)勢，也就意味著成本可以更低。

受此帶動，混合專家（MoE：Mixture-of-Experts）架構(gòu)再次成為行業(yè)的焦點(diǎn)。MoE架構(gòu)即將數(shù)據(jù)分割為多個(gè)Token，然后通過門控網(wǎng)絡(luò)技術(shù)（Gating Network）把每組數(shù)據(jù)分配到特定的專家模型。這些專家模型專注于處理不同的任務(wù)。MoE架構(gòu)的好處在于提供模型靈活性和效率的同時(shí)，也會顯著降低計(jì)算成本。這也是DeepSeek訓(xùn)練成本低于ChatGPT的核心原因。

DeepSeek MoE示意圖

由無數(shù)個(gè)專家模型組成的大模型被稱之為教師模型（參數(shù)量大、性能強(qiáng)大），基于此模型可以針對性蒸餾出不同專業(yè)子模型，子模型也被稱之為學(xué)生模型（輕量級）。

因此不僅是DeepSeek本身，MoE架構(gòu)和蒸餾技術(shù)對未來座艙和智駕技術(shù)都將產(chǎn)生深遠(yuǎn)的影響。

02.

認(rèn)識一下MoE

MoE理論提出時(shí)間很早，在1991年Geoffrey Hinton和Michael I. Jordan就發(fā)表了論文《Adaptive Mixtures of Local Experts》，這也是如今MoE模型引用最早的論文，這也意味著在傳統(tǒng)機(jī)器學(xué)習(xí)時(shí)代，MoE的理念就開始應(yīng)用。

進(jìn)入深度學(xué)習(xí)時(shí)代后，MoE開始在神經(jīng)網(wǎng)絡(luò)中應(yīng)用。2013年12月《Learning Factored Representations in a Deep Mixture of Experts》論文將MoE融合進(jìn)去了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中，并設(shè)計(jì)出橫向拓展神經(jīng)網(wǎng)絡(luò)的方法，使其可以隨著網(wǎng)絡(luò)深度的增加實(shí)現(xiàn)指數(shù)級上升。

真正將MoE應(yīng)用在大參數(shù)模型是Google Brain團(tuán)隊(duì)在2017年發(fā)布的論文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》，訓(xùn)練出了137B參數(shù)的模型。

最大的改進(jìn)在于可以根據(jù)輸入的內(nèi)容，決定采用哪一部分模型進(jìn)行計(jì)算，提升模型計(jì)算的效率。這樣有利于模型規(guī)模增加后，成本不會出現(xiàn)指數(shù)級增加。該案例中最大使用了13萬個(gè)專家模型。當(dāng)然，后續(xù)在應(yīng)用MoE架構(gòu)時(shí)還會面臨工程化難題，即如何協(xié)同算力。

進(jìn)入Transformer時(shí)代后，MoE繼續(xù)得到應(yīng)用。2020年6月，Google發(fā)布《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》，把FFN層替換成MoE層。2021年1月，Google緊接著發(fā)布了《Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》，進(jìn)一步提升了模型的參數(shù)量，達(dá)到1.6T。最大的改變是只為每個(gè)Token分配一個(gè)專家模型而非此前的多個(gè)，使得門控網(wǎng)絡(luò)（Gating Network）可以用BP直接訓(xùn)練。

并提出了容量因子（Capacity Factor）的概念。原理上來看，模型計(jì)算時(shí)希望最大限度讓每個(gè)專家模型拿到均分的Token，以最大限度發(fā)揮機(jī)器算力。但實(shí)際情況Tokens是沒有辦法被均分的。因此就需要為每個(gè)專家模型分配一個(gè)緩沖區(qū)（buffer），buffer的大小等于平均分配到每個(gè)專家模型的Token乘以Capacity Factor。如果buffer溢出，直接將Token丟棄，相當(dāng)于跳過該FFN層的計(jì)算。

對應(yīng)的，通過容量因子，可以實(shí)現(xiàn)計(jì)算速度和訓(xùn)練質(zhì)量的trade-off。即加大容量因子會保證每個(gè)Token得到計(jì)算，但計(jì)算會變慢。減少容量因子可以加速訓(xùn)練，但會導(dǎo)致更多的Token被丟棄。

Switch Transformer主要的成就在于在工程上驗(yàn)證了MoE在大型Transformer模型上的效果，不再僅僅停留在理論層面。在計(jì)算量不變的調(diào)節(jié)下加速模型訓(xùn)練，提升模型效果。對MoE的應(yīng)用有著巨大的推進(jìn)作用，對后續(xù)的scaling law、蒸餾做了很多詳細(xì)的探索，奠定了技術(shù)的方向和基礎(chǔ)。

2022年Google再次發(fā)布了ST-MoE模型，《ST-MoE: Designing Stable and Transferable Sparse Expert Models》，進(jìn)一步推進(jìn)MoE模型的發(fā)展。ST-MoE主要解決兩個(gè)問題，一是訓(xùn)練過程中的不穩(wěn)定。二是特定任務(wù)的小數(shù)據(jù)集微調(diào)預(yù)訓(xùn)練任務(wù)（fine-tune）上表現(xiàn)不佳，與通用大數(shù)據(jù)集訓(xùn)練（pre-train）差異明顯。為了解決這些問題，ST-MoE提出了新的loss，即router z-loss，提出模型的穩(wěn)定性。ST-MoE模型也提出一些手段解決Fine-tune效果不佳的問題，主要解決過擬合難題。提出了兩個(gè)方向，一是只更新模型部分參數(shù)，二是使用于Fine-tune Dense模型不一樣的超參數(shù)。

ST-MoE模型在工程化繼續(xù)向前推進(jìn) ，但考慮到其時(shí)間段，模型依然是Encoder-Decoder架構(gòu)。如今，架構(gòu)更多是Decoder-only架構(gòu)，即純自回歸任務(wù)訓(xùn)練。

2021年12月，AI行業(yè)進(jìn)入GPT時(shí)代，Google也發(fā)布了GLaM，《GLaM: Efficient Scaling of Language Models with Mixture-of-Experts》，訓(xùn)練出了最大為1.2T參數(shù)量的Decoder-only模型，MoE模型正式在Decoder-only架構(gòu)中使用。

可以看出經(jīng)過多年的發(fā)展，MoE模型在理論和工程化方面都得到了提升和完善，在模型效果、訓(xùn)練速度和算力成本方面都表現(xiàn)出較大的優(yōu)勢。但Fine-tune效果不佳的問題也一直在存在，需要行業(yè)繼續(xù)去解決。Google在MoE領(lǐng)域是絕對的先驅(qū)者、拓荒者。

（本章節(jié)內(nèi)容參考自知乎，作者：Verlocksss）

隨著技術(shù)的發(fā)展，2023年開始開源的MoE模型開始向業(yè)內(nèi)開放。

2023年12月，法國公司Mistral AI發(fā)布了全球首個(gè)開源MoE模型，Mixtral 8*7B，采用decode-only架構(gòu)。2024年1月，幻方量化發(fā)布《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》，也是國內(nèi)第一個(gè)開源的MoE模型。

隨著開源生態(tài)的建立，MoE高性價(jià)比的特性凸顯，2024年之后，MoE迎來大發(fā)展，僅上半年全球發(fā)布的MoE模型就超過20多個(gè)，過往三年總量才10個(gè)左右。MoE的使用傾向也不盡相同，有些企業(yè)采用MoE提升大模型性能，有些企業(yè)則利用MoE低成本的優(yōu)勢加速其AI產(chǎn)品的應(yīng)用。

DeepSeek的成功，把MoE在一次推到了前所未有的高度，證明了其工程化的可行性。這是因?yàn)樵谝酝?，包括MLB、FP8訓(xùn)練、MoE all-to-all通信、MTP等技術(shù)雖然早已提出，但從未在如此大的模型中得到協(xié)同創(chuàng)新，更未有開源的模型出現(xiàn)。

03.

DeepSeek及技術(shù)在智駕領(lǐng)域應(yīng)用

從2024年開始，在AI技術(shù)的推動下，智能汽車進(jìn)入AI定義汽車元年。各類AI技術(shù)或應(yīng)用將在汽車中得到嘗試。

拋開營銷服務(wù)領(lǐng)域，汽車中DeepSeek落地最快的云端模型，車端領(lǐng)域是座艙和智駕。云端本身就已探索各類大模型的應(yīng)用，座艙則直接可以通過聯(lián)網(wǎng)接入云端，甚至在座艙直接部署一個(gè)端側(cè)小模型提升用戶語音問答體驗(yàn)（如果算力、內(nèi)存、帶寬允許）。

其實(shí)早在DeepSeek大火之前，開源MoE模型便已出現(xiàn)，MoE模型在車載領(lǐng)域應(yīng)用的時(shí)間段要早于DeepSeek。

2024年10月，小鵬在AI技術(shù)分享會上便提到了其端到端架構(gòu)即車端大模型是基于其云端大模型蒸餾所得，據(jù)了解云端模型架構(gòu)即采用的是MoE。理想汽車CEO宣布轉(zhuǎn)型進(jìn)入AI領(lǐng)域后，據(jù)透露其Mind GPT模型也將采用MoE模型和Transformer結(jié)合。并且理想汽車還與上海期智研究院、復(fù)旦大學(xué)推出STR2。STR2面向自動駕駛領(lǐng)域規(guī)劃控制領(lǐng)域，通過結(jié)合Vision Transformer編碼器和MoE架構(gòu)，實(shí)現(xiàn)對復(fù)雜交通環(huán)境的深度學(xué)習(xí)和有效規(guī)劃。

DeepSeek的出現(xiàn)加快了MoE的進(jìn)程，配合蒸餾技術(shù)，為智駕技術(shù)打開了想象空間。

據(jù)了解，DeepSeek對智駕的影響主要有兩個(gè)方向。一是加速云端智駕模型性能提升（訓(xùn)練教師模型，已經(jīng)在推進(jìn)中），二是車端模型優(yōu)化（部署學(xué)生模型，探索過程中）。

在云端，主要的做法是基于當(dāng)前智駕企業(yè)積累的數(shù)據(jù)庫，選用DeepSeek的開源模型做數(shù)據(jù)生成來完善場景構(gòu)建。主要的應(yīng)用方向有三個(gè)，分別是場景理解、感知融合和軌跡規(guī)劃。

采用DeepSeek后，一方面利用其模型性能可以節(jié)省標(biāo)注成本。有業(yè)內(nèi)人士指出，可以節(jié)省約90%的標(biāo)注成本，還可以生成海量的增強(qiáng)數(shù)據(jù)。比如經(jīng)驗(yàn)豐富的司機(jī)駕駛風(fēng)格數(shù)據(jù)，通過與模型生產(chǎn)的軌跡進(jìn)行對比，可以評估軌跡生成結(jié)果。并且還有利于提升極端路況的表現(xiàn)，這點(diǎn)在城市NOA中尤其適用。

在功能應(yīng)用上，相比于感知融合，軌跡規(guī)劃方面的進(jìn)展預(yù)計(jì)會更快。這是因?yàn)橐曈X部分涉及到位置坐標(biāo)表示，對精度要求更高。DeepSeek作為語言模型對此描述比較模糊，存在FP8精度相對較差的問題。比如車道線的對比，雖然效率有著顯著提升，但誤差增加，短期內(nèi)無法滿足要求。但可以通過其語言部分與視覺結(jié)果做對比，以更好的實(shí)現(xiàn)軌跡預(yù)測。

當(dāng)前由于時(shí)間進(jìn)度原因，云端模型還在接入部署階段。最大的挑戰(zhàn)在于教師模型的完善，借助包括DeepSeek等多個(gè)大模型技術(shù)來優(yōu)化性能，在這個(gè)過程中一些特殊場景的數(shù)據(jù)需要同步挖掘。預(yù)計(jì)在今年下半年會有相關(guān)企業(yè)公布進(jìn)展。

在車端方面，主要的做法是借助DeepSeek所展示出的技術(shù)從教師模型中蒸餾得到學(xué)生模型，無需單獨(dú)對其進(jìn)行訓(xùn)練（理想情況）。

在這個(gè)過程中需要評估芯片算子的框架，當(dāng)前進(jìn)展較快的主要是英偉達(dá)和華為的芯片，地平線芯片還在適配中。然后便是算法移植，將學(xué)生模型部署在車端芯片中。

從進(jìn)度來看，車端模型的適配和部署還在推進(jìn)中，一方面要適配不同的芯片，另外還需評估模型部署完成后，車端模型實(shí)際的表現(xiàn)。在這個(gè)過程中，也可以直接借用DeepSeek的一些小模型，比如目標(biāo)識別、語義分割等作為現(xiàn)有模型的補(bǔ)充。

04.

對未來智駕行業(yè)的影響

首先是降低云端訓(xùn)練成本，即降低算力租賃的費(fèi)用，實(shí)現(xiàn)系統(tǒng)降本。

基于教師模型可以蒸餾得到多種學(xué)生模型，不同版本智駕方案無需重復(fù)開發(fā)，開發(fā)效率也會提升。尤其是會減少第三方智駕企業(yè)的資金壓力和項(xiàng)目周期壓力。

一旦教師模型趨于成熟穩(wěn)定，中階智駕和高階智駕技術(shù)邊界會越來越模糊，理想情況下可以來源于同一教師模型。屆時(shí)，只需要按照功能定義對應(yīng)的蒸餾出相應(yīng)模型即可。該方向比較依賴教師模型的成熟度，DeepSeek本身無法作為智駕教師模型使用（上文提到的精度問題），因此共用教師模型尚需一定時(shí)日。

其次是車端算力要求的降低。本身DeepSeek的一些小模型便可以直接應(yīng)用于智駕，比如上文提到的語義分割，目標(biāo)識別等，以優(yōu)化現(xiàn)有模型。長遠(yuǎn)來看，基于教師模型蒸餾得到的學(xué)生模型也會更加精細(xì)化，并且DeepSeek所展示的推理效率也有一定的借鑒意義。這也就意味車端所需的芯片算力要求會有所降低，行業(yè)希望其可以節(jié)省30%的算力。對應(yīng)的，現(xiàn)有算力平臺能夠?qū)崿F(xiàn)的功能也會增加。個(gè)別企業(yè)表示，基于DeepSeek的技術(shù)路徑甚至可以在單Orin-X上部署L3的功能。

此外，對艙駕一體的應(yīng)用也有幫助。這取決于教師模型的功能定義，需要將智駕和座艙放在同一模型上進(jìn)行迭代升級。但目前未看到有明確的技術(shù)動向。

End.

DeepSeek的大火證實(shí)了AI技術(shù)在成本可控的情況下，的確存在廣闊的市場需求。促使業(yè)內(nèi)加速探索AI的應(yīng)用場景需求，加強(qiáng)了AI產(chǎn)業(yè)的信心。

對于汽車而言，一方面DeepSeek的低成本優(yōu)勢帶來了降本的方向和可能，尤其加速AI在云端和車端座艙里邊的應(yīng)用。更重要的，DeepSeek背后的技術(shù)理念和工程化實(shí)現(xiàn)方式會對現(xiàn)有技術(shù)架構(gòu)體系帶來啟發(fā)，提供新的思路和方向，這點(diǎn)對智駕尤其有用。

來源：第一電動網(wǎng)

作者：NE時(shí)代

本文地址：http://ewshbmdt.cn/kol/262989

返回第一電動網(wǎng)首頁 >

文中圖片源自互聯(lián)網(wǎng)，如有侵權(quán)請聯(lián)系admin#d1ev.com（#替換成@）刪除。