国产精品久久久久久久免费看,国产成人麻豆亚洲综合无码精品,国产精品白丝av嫩草影院,国产成人亚洲精品无码h在线 ,大又大又粗又硬又爽少妇毛片

  1. 首頁
  2. 大牛說
  3. 二代FSD也有算力焦慮?特斯拉不惜血本用上GDDR6

二代FSD也有算力焦慮?特斯拉不惜血本用上GDDR6

特約作者 / 周彥武(業(yè)內(nèi)資深專家)

編輯 / 汽車之心

特斯拉最新的自動(dòng)駕駛大腦 FSD,不惜血本用上了GDDR6。

如上圖中的 D9ZPR,正反兩面各用了 8 顆,總計(jì)16 顆,每顆容量 2GB。

但最近 ChatGPT 帶動(dòng) GDDR6 需求暴增,價(jià)格略有上漲,目前每片價(jià)格大約10-13 美元

實(shí)際上,特斯拉 HW4.0 的座艙控制器里還有 4 顆 GDDR6,每顆容量也是 2GB,合計(jì) 40GB 即200 美元以上

大部分廠家都選擇 LPDDR4 或 LPDDR5。

例如英偉達(dá)的中配 Orin 開發(fā)盒子是 4 顆 8GB 即 32GB 的 LPDDR5,只需要大約 50-60 美元,這與特斯拉 HW 4.0 中的第二代 FSD 價(jià)格相差 150 美元。

特斯拉 HW3.0 使用的是 8 片 2GB 的 LPDDR4,每片大約 3.5 美元,8 片只有28 美元

當(dāng)然,這當(dāng)中最大贏家是美光,車載領(lǐng)域80%的 DRAM 市場(chǎng)均來自美光。美光是美國(guó)唯一存儲(chǔ)器公司,也是除英特爾外美國(guó)本土幾乎唯一的硬科技公司(AMD 的制造均由臺(tái)積電完成)。

總體來看,車載領(lǐng)域目前都是使用 LPDDR,特斯拉再次開創(chuàng)先河:首次在車載領(lǐng)域使用GDDR

01、什么是內(nèi)存?

在細(xì)說 GDDR 前,我們先來了解內(nèi)存的概念。

運(yùn)算系統(tǒng)有兩種存儲(chǔ):

一種是斷電后存儲(chǔ)內(nèi)容不丟失的非易失性存儲(chǔ)器(英語:Non-Volatile Memory,縮寫:NVM),最常見的 NVM 是Flash 存儲(chǔ)器;

還有一種是斷電后存儲(chǔ)內(nèi)容就消失的易失性存儲(chǔ)器,即 RAM。

RAM 又分為兩類:

  • DRAM(Dynamic Random Access Memory,動(dòng)態(tài)隨機(jī)存取記憶體);

  • SRAM(Static Random Access Memory,靜態(tài)隨機(jī)存取記憶體)。

通常內(nèi)存指的是 RAM,準(zhǔn)確地說應(yīng)該叫緩存暫存。

NVM 原理類似電容,因此其讀出寫入速度很慢,跟 CPU 速度比差太多。為了 NVM 和 CPU 兩者協(xié)調(diào)工作,加入內(nèi)存做中轉(zhuǎn)緩沖,可以說,RAM 計(jì)算單元與數(shù)據(jù)或指令存儲(chǔ)之間的橋梁。

對(duì)于 AI 加速器來說,內(nèi)存尤為重要。

所謂 AI 運(yùn)算,就是矩陣乘積累加,輸入矩陣與權(quán)重矩陣之間的乘積累加,需要頻繁地讀取權(quán)重矩陣或者說訓(xùn)練好的模型參數(shù)。

模型參數(shù)越大,自然就需要更高的帶寬,一次性讀出更多的參數(shù)。

小模型的魯棒性和可移植性很差,因此人類 AI 的發(fā)展方向就是越來越大的模型,參數(shù)越來越多。

機(jī)器視覺的奠基者 ResNet 50 是 2500 萬個(gè)參數(shù),自動(dòng)駕駛領(lǐng)域目前正火的 Transformer 在 9 千萬到 3.4 億之間,ViT 變種是 20 億,GPT3 是驚人的1750 億。

自動(dòng)駕駛遲早也會(huì)達(dá)到這個(gè)規(guī)模。

模型平均每?jī)赡陼?huì)增加 240 倍,內(nèi)存帶寬兩年只會(huì)增加兩倍。

SRAM 速度很高,高性能 AI 芯片需要盡量多的 SRAM。

SRAM 價(jià)格也高,差不多每 MB 價(jià)格是80-100 美元,通常 AI 訓(xùn)練用芯片需要 50MB 以上的 SRAM,也就意味著5000 美元的成本。

SRAM 需要6 個(gè)晶體管,并且晶體管之間的通道即有效寬度 Weff 在目前主流的 FinFET 工藝下,SRAM 的縮微很困難。

臺(tái)積電 N3 即 3 納米工藝,N3 具有 0.0199μm2的 SRAM 位單元大小,與 N5(5 納米工藝)的 0.021μm2 SRAM 位單元相比僅縮小了~5%。

改進(jìn)后的 N3E(3 納米擴(kuò)展)變得更糟。

因?yàn)樗鋫淞?0.021 μm2 SRAM 位單元(大致轉(zhuǎn)換為 31.8 Mib / mm2),這意味著與 N5 相比根本沒有縮放,再延伸就是芯片的成本增加了,性能卻沒有。

目前 AI 模型尺寸越來越大,超過 20GB 已是常態(tài)。

使用 SRAM 來存儲(chǔ),芯片價(jià)格輕易突破100 萬美元,即使是不太在乎價(jià)錢的服務(wù)器也承受不起。

因此,我們只能退而求其次——HBM,即 High Bandwidth Memory,每 GB 的 HBM 成本大約20 美元。

如上圖,簡(jiǎn)單概括:

HBM 是將 SDRAM 用 TSV(硅通孔)工藝堆疊起來,如同蓋樓,層和層之間會(huì)有金屬層等間隔,同時(shí)通過 TSV 聯(lián)通各個(gè)存儲(chǔ)單元。

TSV 是內(nèi)存能夠堆疊的關(guān)鍵,它能夠在各個(gè)存儲(chǔ)層之間以及層內(nèi)構(gòu)建出硅通孔的通路,存儲(chǔ)單元的訪問就通過這些通孔完成。

在了解 HBM 之前,我們需要明白幾個(gè)內(nèi)存基本概念——密度、速度帶寬

密度指的就是容量。

速度有兩種描述,一是頻率即MHz,另一種是MT/s,后一種方式越來越成為主流。

速度就好比高速公路的最高時(shí)速,帶寬就好比高速公路的車道數(shù)。

HBM 是以犧牲速度來提高帶寬的。

1MHz=1000KHz=1000000Hz 等于 1 秒內(nèi)高低電平信號(hào)切換100 萬次。

MT/s 全稱 Million Transfers Per Second 意為每秒百萬次傳輸。

1T/s 和 1Hz,這兩個(gè)單位前者指的是每秒做了一次傳輸,后者指每秒 1 時(shí)鐘周期。

因?yàn)?DDR 內(nèi)存信號(hào)每個(gè)時(shí)鐘信號(hào)可以傳輸 2 次,所以實(shí)際的傳輸速率為 1Hz 等于 2T/s,1MHz 等于2MT/s

在 DDR5 發(fā)布后,內(nèi)存性能規(guī)格的單位選擇了 MT/s 為主,英特爾和金士頓、美光、威剛、芝奇等 PC 行業(yè)的領(lǐng)頭企業(yè)也紛紛跟進(jìn)這一策略,將內(nèi)存性能的衡量單位改為MT/s。

對(duì) CPU 來說,主要是串行數(shù)據(jù)流,速度就顯得較為重要。

而 AI 和 GPU 是并行計(jì)算,帶寬則比速度重要。

  • 系統(tǒng)最大內(nèi)存帶寬= 內(nèi)存標(biāo)稱頻率*內(nèi)存總線位數(shù)*通道數(shù)

  • 實(shí)際內(nèi)存帶寬 = 內(nèi)存標(biāo)稱頻率*內(nèi)存總線位數(shù)*實(shí)際使用的通道數(shù)

  • 實(shí)際內(nèi)存帶寬=內(nèi)存核心頻率*內(nèi)存總線位數(shù)*實(shí)際使用的通道數(shù)*倍增系數(shù)

我們以車載領(lǐng)域的 LPDDR 為例來描述帶寬:

歷代 LPDDR 參數(shù),注意位寬等同于 Maximum density,這是 CPU 一次能拿走的數(shù)據(jù)最大密度,用于 GPU 的最大密度就可以輕易達(dá)到 384bit。

特斯拉初代 FSD 使用的 LPDDR4,型號(hào)是 MT53D512M32D2DS-046 AAT,容量為 16Gb,總共 8 片,I/O 頻率 2133MHz,單通道的話,其帶寬為 2133*64*16,即 273GB/s。

HBM 采用物理堆疊,它的總線位寬可以是并聯(lián)形式,每個(gè) Die 有 2 個(gè) 128bit 位寬的通道,HBM1 只有 4 層堆疊叫做 4-Hi,帶寬可以達(dá)到 4*2*128=1024bit,HBM2 的 I/O 頻率是 1107MHz,倍頻系數(shù)是 2。

以英偉達(dá) V100S 加速器為例,用了 4 顆 HBM2,帶寬是 1107*2*4*1028/8/1000,即 1134GB/s——比 LPDDR4 要高很多。

HBM3 頻率提到 1600MHz,堆疊提高到 16 層,比 HBM1 高出 4 倍

英偉達(dá)最新旗艦 H100 有多個(gè)版本,其中頂配使用 HBM3 內(nèi)存 5 顆,每顆 16GB,帶寬是 5*1600*2*16*1028,也就是3350GB/s。

HBM 通過基板的硅互聯(lián)層與主處理器連接,物理距離遠(yuǎn)遠(yuǎn)小于 PCB 上內(nèi)存與處理器之間的連接,幾乎逼近 L3 緩存的連接距離,盡管其運(yùn)行頻率不高,但是這個(gè)速度是真實(shí)速度,沒有任何水分。

另外需要指出的是,DDR 包括 LPDDR 和 HBM 這類存儲(chǔ),其真實(shí)的核心頻率很低,在 133MHz 到 200MHz 之間。

不過為了數(shù)字漂亮,幾乎沒有廠家提到核心頻率。

核心頻率提高會(huì)導(dǎo)致功耗大增,這也是內(nèi)存速度一直比較慢的真正原因。

來一張 H100 的高清大圖:

H100 分兩種,一種是SXM,另一種是PCIe。

H100 SXM5 的 INT8 算力峰值可達(dá) 4000TOPS,PCIe 是 3200TOPS。

注意 H100 主芯片旁邊的 6 個(gè)緊貼著的芯片(有一個(gè)是空的,為了對(duì)稱散熱設(shè)計(jì)的,實(shí)際只有 5 個(gè)),那就是昂貴的 HBM3,由韓國(guó) SK Hynix 提供。

目前全球只有 SK Hynix 能夠量產(chǎn) HBM3,也只有英偉達(dá)一個(gè)用戶。

HBM 缺點(diǎn)一是,二是必須 3D 堆疊,三是散熱不易。

因?yàn)樗嵌询B的,考慮到成本比較高,只有服務(wù)器和 AI 訓(xùn)練領(lǐng)域才有人用 HBM,推理領(lǐng)域還未見到。

HBM 再退一步,就是今天的主角:GDDR。

02、為何特斯拉不惜血本用 GDDR6?

GDDR,可以說是廉價(jià)版 HBM。

GDDR 是 Graphics Double Data Rate 的縮寫,是為 GPU 而生的內(nèi)存。

GPU 和 AI 處理器,沒有 L1/L2/L3 級(jí)緩存的概念,因?yàn)樗暮诵臄?shù)量太多,不可能給每個(gè)核心配備緩存,那樣做成本太高了。

GDDR 從第五代完全成熟,之前的四代都是基于傳統(tǒng) DDR,曇花一現(xiàn)生命周期很短,而 GDDR5 生命周期已經(jīng)超過10 年。

GDDR5 最大提升是頻率提高了 4 倍,采用了所謂 QDR 技術(shù),DDR 是半雙工,QDR 是全雙工,它有兩條數(shù)據(jù)總線,兩條都可以同時(shí)讀寫。

比如 GDDR5 的 I/O 頻率通常是 1750MHz,實(shí)際 I/O 頻率是 1750*4=7000MHz。單顆 GDDR5 的帶寬就是 32*7G/8=28GB/s。

GDDR6 再進(jìn)一步,將預(yù)取 prefetch size 數(shù)據(jù)從 8n 增加到 16n,帶寬再翻倍,單 bank 通??蛇_(dá) 56GB/s。

以特斯拉的 16 顆 GDDR6 為例,帶寬是 56*16=896GB/s,是初代 LPDDR4 的 3 倍多,但跟 HBM3 差別還是很大。

上圖為各種 GDDR 參數(shù)對(duì)比:

GDDR5X 的總線是 352 位,就是最大支持 11 顆 32bit 的 GDDR 并聯(lián),合計(jì)總線寬度 352bit。

GDDR6 就是最大支持 12 顆 32bit 的 GDDR6 并聯(lián),合計(jì)總線寬度 384 位。

GPU 是并行計(jì)算,CPU 想做到這么高的位寬就比較困難。

2019 年開始出現(xiàn) GDDR6X,也就是 GDDR7 的預(yù)演版,最大改變是引入 PAM4 編碼,單顆達(dá)到 84GB/s,12 顆帶寬超過1TB/s。

雖然理論上 GDDR6X 采用 PAM4 信號(hào)調(diào)制方式,配合 MTA 編碼技術(shù),GDDR6X 的能效提升很多。

同樣是 8 顆顯存,GDDR6X 能效比相比 GDDR6 的每比特能耗要低15%。

實(shí)際測(cè)試中,搭載 10GB GDDR6X 顯存的 RTX3080 的顯存功耗高達(dá) 70W,24GB GDDR6X 顯存的 RTX3090 的顯存功耗更是上到130W,是十足的耗電大戶。

不過 GDDR 和 HBM 都是針對(duì)并行計(jì)算的,注重帶寬,不注重速度。

GDDR6 的 CSA 延遲是 DDR4 的2 倍多,也就是說 GDDR 和 HBM 不適合用在 CPU 上。

CPU 是有序列的串行運(yùn)算為主,因此英偉達(dá) Grace Hopper Superchip 的 CPU 部分還是使用了LPDDR5X

而目前全球算力最高的設(shè)備,是大約 25 萬美元的英偉達(dá) DGX-H100,CPU 部分是英特爾的 Sapphire Rapids 即 Xeon W3XXX 系列(旗艦產(chǎn)品近 6000 美元一片)。

此前的 DGX-A100,CPU 是 AMD 的 EPYC Rome。

對(duì)應(yīng) CPU 的是 SK Hynix 的 DDR5,當(dāng)然英特爾的 Xeon 做并行計(jì)算也可以,畢竟它是 56 核心。所以英特爾 Sapphire Rapids 也支持 HBM2E,但首選還是 DDR5。

特斯拉的二代 FSD 也有 CPU 部分,即 20 核心的 ARM Cortex-A72。

但特斯拉對(duì) AI 算力更在意,或者說特斯拉有算力焦慮。

英偉達(dá)在算力方面太強(qiáng)大了,特斯拉寧肯弱化一點(diǎn) CPU 也要上 GDDR6,并且是不惜成本。

特斯拉熱衷于大模型,為了保證足夠高的效率,我推測(cè)特斯拉三代 FSD 芯片估計(jì)要使用昂貴的 HBM3,至少要裝下全部權(quán)重模型,估計(jì)容量不低于 50GB。

單這部分成本,就不低于 1000 美元,未來特斯拉三代 FSD 的成本最低也在 1500 美元以上。

同樣,如果自動(dòng)駕駛行業(yè)還熱衷于人工智能,那么 5 年后的自動(dòng)駕駛芯片成本最低也要2000 美元以上。

來源:第一電動(dòng)網(wǎng)

作者:汽車之心

本文地址:http://ewshbmdt.cn/kol/197094

返回第一電動(dòng)網(wǎng)首頁 >

收藏
22
  • 分享到:
發(fā)表評(píng)論
新聞推薦
大牛作者

汽車之心

微信公號(hào)Auto-Bit。汽車之心是一家專注智能汽車與自動(dòng)駕駛的媒體和知識(shí)服務(wù)平臺(tái),定位于推動(dòng)汽車與科技的融合。我們的團(tuán)隊(duì)由一群熱愛汽車與新技術(shù)的資深媒體人、產(chǎn)品人與自動(dòng)駕駛行業(yè)從業(yè)者組成。歡迎添加微信號(hào)autobitxyz給我們提意見。

  • 1002
    文章
  • 47359
    獲贊
閱讀更多文章
熱文榜
日排行
周排行
第一電動(dòng)網(wǎng)官方微信

反饋和建議 在線回復(fù)

您的詢價(jià)信息
已經(jīng)成功提交我們稍后會(huì)聯(lián)系您進(jìn)行報(bào)價(jià)!

第一電動(dòng)網(wǎng)
Hello world!
-->