本不平靜的智能駕駛芯片江湖,再添新變局。
5 月 10 日,后摩智能重磅發(fā)布智能駕駛芯片鴻途?H30,該芯片物理算力高達(dá)256TOPS@INT8,與時(shí)下備受追捧的 256TOPS 英偉達(dá) Orin X 不相上下,典型功耗只有 35W,能效比之高可見一斑。
這塊芯片性能如此強(qiáng)勁的背后,在于其采用了顛覆性的底層架構(gòu)設(shè)計(jì)——存算一體。
與大多數(shù)芯片基于馮·諾依曼架構(gòu)打造不同,存算一體通過在存儲(chǔ)單元內(nèi)完成部分或全部的運(yùn)算,極大地解決了芯片性能受存儲(chǔ)帶寬限制的瓶頸,且降低了功耗需求。
鴻途?H30 的推出對(duì)于行業(yè)來說具有重大的意義,其大算力、極致能效比、超低延時(shí)、低成本等特性,正好吻合智能汽車對(duì)于芯片的需求。
當(dāng)下,智能駕駛行業(yè)正在面臨性能提升、成本下探的關(guān)鍵發(fā)展期,作為國內(nèi)首款存算一體智駕芯片,該芯片注定將引發(fā)一系列的連鎖反應(yīng)。
「從大型計(jì)算機(jī)到個(gè)人 PC,再到現(xiàn)在的手機(jī),技術(shù)發(fā)展與應(yīng)用變革的趨勢(shì)表明,每 1000 倍效率提升將會(huì)創(chuàng)造一個(gè)新的計(jì)算時(shí)代,伴隨著 AI 技術(shù)的躍進(jìn),今天的芯片也有望在計(jì)算能力和效率上有1000 倍以上的提升,后摩希望做出極效的 AI 芯片,實(shí)現(xiàn)萬物智能?!购竽χ悄軇?chuàng)始人兼 CEO 吳強(qiáng)在發(fā)布會(huì)上如此說道。
01、存算一體,顛覆智能駕駛芯片
正如開頭所說的,后摩采用了存算一體這種新的底層架構(gòu)來設(shè)計(jì)芯片。
所謂存算一體,從字面意思上來說,就是存儲(chǔ)和計(jì)算融為一體。
首先需要明確的一點(diǎn)是,所有的 AI 算法包括深度學(xué)習(xí),本質(zhì)上是在下達(dá)指令,做大量的乘加計(jì)算,體現(xiàn)在芯片層面,則是一大堆晶體管的開開閉閉。
在過去按照馮·諾依曼架構(gòu)設(shè)計(jì)的芯片下,AI 計(jì)算過程簡單理解是這樣的:數(shù)據(jù)通過設(shè)備輸入到存儲(chǔ)器,處理器(計(jì)算單元)從存儲(chǔ)器中獲取指令和數(shù)據(jù),進(jìn)行計(jì)算,處理完后輸出結(jié)果,寫回存儲(chǔ)器。
這種架構(gòu)的顯著特點(diǎn)是計(jì)算單元與存儲(chǔ)單元分離,在執(zhí)行計(jì)算時(shí),數(shù)據(jù)在二者之間高頻地遷移,在面對(duì)常規(guī)計(jì)算量時(shí),這樣做尚足以勝任工作,然而隨著自動(dòng)駕駛、ChatGPT 等大數(shù)據(jù)模型出現(xiàn),對(duì)于算力需求急劇提升,馮·諾依曼架構(gòu)開始遭遇瓶頸。
舉例來說,以矩陣乘法為主的 Transformer 類計(jì)算,大多數(shù)的步驟是在訪問內(nèi)存,而非執(zhí)行計(jì)算,盡管大量數(shù)據(jù)頻繁在計(jì)算單元與存儲(chǔ)單元之間移動(dòng),但由于存儲(chǔ)器讀寫的速度不夠快,導(dǎo)致數(shù)據(jù)被「堵塞」在訪存過程中,并未真正投入計(jì)算,由此使得計(jì)算系統(tǒng)的有效帶寬大大降低,系統(tǒng)算力的增長舉步維艱。
盡管可以通過多核(如 CPU)/眾核(如 GPU) 并行加速技術(shù)提升算力,但這將帶來功耗和成本的提升。
應(yīng)用存算一體新架構(gòu),可以解決這個(gè)難題,其底層邏輯是將 AI 計(jì)算中大量乘加計(jì)算的權(quán)重部分,直接留在存儲(chǔ)單元中計(jì)算,以優(yōu)化數(shù)據(jù)傳輸路徑,從而大幅提升計(jì)算效率。
而這正是后摩智能設(shè)計(jì)智能駕駛芯片 IP 的思路,公司聯(lián)合創(chuàng)始人兼研發(fā)副總裁陳亮分享道,通過在傳統(tǒng)的 SRAM 電路旁,加入包括 Activation Driver、乘法器、加法樹、累加器等定制化電路結(jié)構(gòu),后摩成功實(shí)現(xiàn)高能效的存內(nèi)并行乘加運(yùn)算。
「計(jì)算電路緊挨著存儲(chǔ)單元,數(shù)據(jù)被讀出的同時(shí)可以在原地進(jìn)行乘加計(jì)算,相較于(馮·諾伊曼架構(gòu)下)Row by Row 的數(shù)據(jù)讀取方式,極大地提高了并行性?!?/span>
這樣的 IP 設(shè)計(jì)擁有超高的計(jì)算密度,使得「大算力」得以實(shí)現(xiàn);基于 SRAM 的純數(shù)字設(shè)計(jì),還滿足全精度要求;架構(gòu)上是完全的存內(nèi)計(jì)算,也減少了訪存功耗。
基于此,后摩面向智能駕駛場(chǎng)景打造了專用 IPU(Intelligence Processing Unit,處理器架構(gòu))——天樞架構(gòu)。
陳亮表示,取名「天樞」在于其設(shè)計(jì)理念借鑒融合了庭院式的中國傳統(tǒng)住宅和現(xiàn)代高層公寓樓的不同風(fēng)格。
在他看來,庭院式代表著集中式的存儲(chǔ)和計(jì)算架構(gòu),特斯拉 FSD 芯片正是如此,通過堆積大量芯片資源以及高并行性,帶來性能提升。
然而,這在遇到算力要求更大、計(jì)算靈活性要求更高的場(chǎng)景下,容易受到數(shù)據(jù)規(guī)模的限制,此時(shí)計(jì)算效率急劇下降,數(shù)據(jù)的并行性和計(jì)算資源的并行性無法匹配。
「這樣的架構(gòu)設(shè)計(jì)類似于古典中式庭院,它向內(nèi)合圍成一個(gè)小的院子,集各種功能于一身,使得人與人、人和自然之間可以非常高效溝通,但是因?yàn)樵郝涿娣e終究有限,所能容納的居住人數(shù)也有限,且設(shè)計(jì)和建造這樣的庭院難度和成本極大,所以它的可拓展性就比較差。」
而現(xiàn)代西式的高層公寓就截然不同,其采用完全相同的獨(dú)立小單元,可以在三維空間中自由拓展,以容納更多的人,類比芯片結(jié)構(gòu),就是將一個(gè)算力很大的核切分成若干個(gè)小核,細(xì)分到極致?!覆贿^這樣的架構(gòu)下,人和自然之間、人和人之間的溝通效率就會(huì)變得很低?!?/span>
后摩的做法是融合了中式庭院和西式高樓的特點(diǎn),陳亮解釋道,先打造一個(gè)優(yōu)美的庭院,以大布局設(shè)計(jì)保障計(jì)算資源利用效率,在此基礎(chǔ)上,再借鑒現(xiàn)代高層建筑的方式,以多核/多硬件線程的方式靈活擴(kuò)展算力,「這樣我們就實(shí)現(xiàn)了芯片效率、靈活性和可擴(kuò)展性的完美平衡。」
02、能效比力壓英偉達(dá) Orin,鴻途?H30 未來可期
立足于天樞架構(gòu),后摩成功研發(fā)出首款存算一體智駕芯片——鴻途?H30。
該芯片物理算力達(dá)到256TOPS@INT8,典型功耗 35W,簡單計(jì)算可得,SoC 層面的能效比達(dá)到了7.3TOPS/Watt,而在傳統(tǒng)的馮·諾依曼架構(gòu)下,采用 12nm 相同工藝,所能實(shí)現(xiàn)的能效比多在 2TOPS/Watt 的水平。
發(fā)布會(huì)上,后摩聯(lián)合創(chuàng)始人兼產(chǎn)品副總裁信曉旭以 Resnet50 為例,更為直觀地展示了鴻途?H30 這一優(yōu)異的性能指標(biāo)。
在 Resnet50 v1.5,輸入圖片尺寸是 224x224 的測(cè)試條件下,當(dāng)「batch size = 8」時(shí),鴻途?H30 達(dá)到了 10300 幀/秒的性能,是某國際巨頭旗艦芯片的 2.3 倍,而在「batch size = 1」時(shí),這一差距更為明顯,鴻途?H30 性能達(dá)到了8700 幀/秒,而國際巨頭的芯片性能僅為 1520 幀/秒,前者是后者的5.7 倍。
「國際巨頭的芯片需要在更高的 batch size 的情況才能更好地發(fā)揮性能,但高 batch size 帶來的是延時(shí)的增加。而我們架構(gòu)針對(duì)智能駕駛場(chǎng)景特殊優(yōu)化的,因此在低 batch 下(也就是更低延時(shí)),性能就能夠充分發(fā)揮?!?/span>
另一參數(shù)——實(shí)際業(yè)務(wù)下的計(jì)算效率更能說明本質(zhì)差別。基于上述相同的條件,鴻途?H30 在「batch size = 8」條件下,計(jì)算效率達(dá)到了294FPS/Watt,是國際友商的 4.6 倍,「batch size = 1」時(shí),則達(dá)到了11.3 倍。
而這還是在不同制程下的對(duì)比,鴻途?H30 基于 12nm 工藝,而國際巨頭芯片基于 8nm 工藝,不難理解,如果將二者轉(zhuǎn)化成同一工藝節(jié)點(diǎn)對(duì)比,存算一體架構(gòu)的芯片計(jì)算效率優(yōu)勢(shì)將會(huì)更明顯。
鴻途?H30 的規(guī)格參數(shù)還不止這些,其支持 Memory 擴(kuò)展,帶寬達(dá)到128GB/S,同時(shí),內(nèi)部還集成了 16 路的 1080P 的視頻編碼單元和解碼單元,在外部的高速接口上,采用 PCle 4.0 的連接,向下兼容,lane 數(shù)可配,支持 RC 和 EP mode。
多重「硬實(shí)力」加持下,鴻途?H30 成功運(yùn)行常用的經(jīng)典 CV 網(wǎng)絡(luò)和多種自動(dòng)駕駛先進(jìn)網(wǎng)絡(luò),包括當(dāng)前業(yè)內(nèi)最受關(guān)注的 BEV 網(wǎng)絡(luò)模型以及廣泛應(yīng)用于高階輔助駕駛領(lǐng)域的 Pointpillar 網(wǎng)絡(luò)模型。
信曉旭透露,以鴻途?H30 打造的智能駕駛解決方案已經(jīng)在合作伙伴的無人小車上完成部署,「這是業(yè)界第一次基于存算一體架構(gòu)的芯片成功運(yùn)行端到端的智能駕駛技術(shù)棧?!?/span>
在發(fā)布會(huì)現(xiàn)場(chǎng),后摩還專門推出了基于鴻途?H30 打造的智能駕駛硬件平臺(tái)——力馭?,其 CPU 算力高達(dá)200 Kdmips,AI 算力為 256Tops,支持多傳感器輸入,能夠?yàn)橹悄荞{駛提供更充沛的算力支持;在功耗上,力馭?平臺(tái)僅為 85W,可采用更加靈活的散熱方式,實(shí)現(xiàn)更低成本的便捷部署。
衡量一款芯片好不好,除了看硬件上的「硬實(shí)力」,還要看軟件上的易用性,這其中工具鏈發(fā)揮著重要的作用。信曉旭認(rèn)為,除了追求芯片在 PPA 指標(biāo)上的競爭力之外,還要確保在軟件工具鏈的競爭力,「要打造高效,易用的軟件開發(fā)工具鏈,讓算法開發(fā)人員用得舒服、用得爽?!?/span>
汽車之心了解到,為了幫助客戶和合作伙伴用好芯片,后摩基于鴻途?H30 芯片自主研發(fā)了一款軟件開發(fā)工具鏈——后摩大道?,以無侵入式的底層架構(gòu)創(chuàng)新保障了通用性的同時(shí),進(jìn)一步實(shí)現(xiàn)了鴻途?H30 的高效、易用。
信曉旭表示,在芯片和工具鏈的雙重配合下,后摩能夠向智能駕駛市場(chǎng)提供更優(yōu)選擇。他透露,鴻途?H30 將于今年 6 月份開始給 Alpha 客戶送測(cè)。
「我們的研發(fā)人員還在加班加點(diǎn)地調(diào)試,進(jìn)行送測(cè)之前的最后準(zhǔn)備工作,這將會(huì)是后摩用存算一體重構(gòu)智能駕駛芯片的開端?!?/span>
03、格局未定的智能駕駛芯片江湖,再次迎來大洗牌
在后摩發(fā)布鴻途?H30 之前,似乎沒有玩家在芯片底層架構(gòu)做改動(dòng),即使是打響大算力芯片前裝量產(chǎn)第一槍的國際巨頭英偉達(dá),目前也是沿著馮·諾伊曼架構(gòu)不斷迭代自己的產(chǎn)品。
然而隨著智能駕駛往更高階和更普及化方向發(fā)展,對(duì)于架構(gòu)創(chuàng)新的呼喚,顯得愈發(fā)緊迫。
一方面,從高速公路、快速路到城區(qū)道路,智能駕駛面臨的場(chǎng)景越來越復(fù)雜,為了識(shí)別各種異形物,玩家們部署了 Transformer 等大模型,由此也帶來算力需求的急劇上升,業(yè)內(nèi)估計(jì)從當(dāng)前火熱的城市 NOA 到未來走向 L3/L4 級(jí)自動(dòng)駕駛,芯片算力將從幾百 TOPS 往上千 TOPS 增長,然而在傳統(tǒng)的馮·諾依曼架構(gòu)設(shè)計(jì)下,存儲(chǔ)帶寬制約算力向上拓展的空間;
另一方面,智能駕駛功能正在加速向下滲透,工信部數(shù)據(jù)顯示,2022 年,智能網(wǎng)聯(lián)乘用車 L2 級(jí)及以上輔助駕駛系統(tǒng)的市場(chǎng)滲透率提升至 34.9%,較 2021 年增加 11.4 個(gè)百分點(diǎn),有數(shù)據(jù)預(yù)測(cè),2025 年,該功能的滲透率將進(jìn)一步上升至 70%,在此過程中,智駕芯片的成本需要不斷降低,以滿足主機(jī)廠大量裝車的需求,然而隨著摩爾定律失效,依靠改進(jìn)芯片制程工藝來降本的方式已然難以為繼。
可以看到,無論是從算力需求角度,還是從行業(yè)降本訴求來看,傳統(tǒng)的馮·諾伊曼架構(gòu)已經(jīng)適應(yīng)趨勢(shì)的發(fā)展,到了不得不變革的地步。
后摩推出首款存算一體芯片鴻途?H30,無疑精準(zhǔn)切中了這一痛點(diǎn),并在「天下未定」的市場(chǎng)格局下,占據(jù)了有利先機(jī)。
吳強(qiáng)表示,鴻途?H30 直接消除了「存」「算」界限,使計(jì)算能效達(dá)到數(shù)量級(jí)提升,且由于不依賴于先進(jìn)的存儲(chǔ)工藝或封裝技術(shù),僅通過底層架構(gòu)的創(chuàng)新,在 12nm的制程上,也能把算力做到幾百 TOPS,且不增加成本。
另外,因?yàn)楣妮^低,還減少了投向復(fù)雜散熱系統(tǒng)的成本,讓 10 多萬左右的平價(jià)車能夠用上高算力芯片,以此實(shí)現(xiàn)智能駕駛功能。
「只有幫助客戶實(shí)現(xiàn)更低成本的便捷部署,才能推動(dòng)智能駕駛應(yīng)用走入尋常百姓家。」
需要指出的是,鴻途?H30 還有一個(gè)容易被忽視的優(yōu)點(diǎn)——供應(yīng)鏈安全。眾所周知,中國半導(dǎo)體行業(yè)正在遭受全球地緣政治影響,對(duì)于車企而言,確保芯片供應(yīng)鏈安全、自主可控,具有重大的戰(zhàn)略意義。
后摩推出的鴻途?H30 能夠做到滿足市場(chǎng)算力需求的同時(shí),不依賴制程工藝,這無疑給車企吃下一顆「定心丸」。
中國電動(dòng)汽車百人會(huì)副理事長兼秘書長張永偉在發(fā)布會(huì)上也指出,鴻途?H30 將有利于解決汽車芯片供應(yīng)鏈中存在的同質(zhì)化競爭問題,助力提升產(chǎn)業(yè)鏈的韌性和供應(yīng)鏈的安全性。
從智能駕駛興起到現(xiàn)在,芯片領(lǐng)域一直在變,從單片機(jī)到 SOC,從小算力到大算力,從與算法綁定封閉,到軟硬解耦走向開放,如今,又迎來底層架構(gòu)的革新,而每一次變化,都將意味著市場(chǎng)格局的重新洗牌。
信曉旭表示,如今就像是芯片行業(yè)的「內(nèi)燃機(jī)時(shí)刻」,在汽車發(fā)展最早期,由于是蒸汽機(jī)提供動(dòng)力,能量轉(zhuǎn)換效率十分低,導(dǎo)致當(dāng)時(shí)的汽車淪為少數(shù)人的玩具,后面隨著內(nèi)燃機(jī)的推出,能量效率得到大幅提升,由此大大加速了汽車普及,為后面近百年汽車產(chǎn)業(yè)的繁榮,奠定了堅(jiān)實(shí)的底層技術(shù)基礎(chǔ)。
「作為目前業(yè)界計(jì)算效率最高的智駕芯片,鴻途?H30 在今天推出,像極了那樣的時(shí)刻。」
就在鴻途?H30 正待上車的時(shí)間節(jié)點(diǎn),后摩智能又開啟了第二代智能駕駛芯片產(chǎn)品鴻途?H50 的研發(fā),后者基于新一代更先進(jìn)的天璇架構(gòu)設(shè)計(jì),支持自然散熱條件,整體計(jì)算效率更高,預(yù)計(jì)將于 2024 年推出,支持客戶 2025 年的量產(chǎn)車型。
隨著后摩在存算一體方向持續(xù)發(fā)力,悄然間,一個(gè)新的智能駕駛芯片時(shí)代開啟了。
來源:第一電動(dòng)網(wǎng)
作者:汽車之心
本文地址:http://ewshbmdt.cn/kol/202344
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除。