二代FSD也有算力焦慮？特斯拉不惜血本用上GDDR6

第一電動(dòng)大牛作者汽車之心 2023-03-03 10:33

特約作者 / 周彥武（業(yè)內(nèi)資深專家）

編輯 / 汽車之心

特斯拉最新的自動(dòng)駕駛大腦 FSD，不惜血本用上了GDDR6。

如上圖中的 D9ZPR，正反兩面各用了 8 顆，總計(jì)16 顆，每顆容量 2GB。

但最近 ChatGPT 帶動(dòng) GDDR6 需求暴增，價(jià)格略有上漲，目前每片價(jià)格大約10-13 美元。

實(shí)際上，特斯拉 HW4.0 的座艙控制器里還有 4 顆 GDDR6，每顆容量也是 2GB，合計(jì) 40GB 即200 美元以上。

大部分廠家都選擇 LPDDR4 或 LPDDR5。

例如英偉達(dá)的中配 Orin 開發(fā)盒子是 4 顆 8GB 即 32GB 的 LPDDR5，只需要大約 50-60 美元，這與特斯拉 HW 4.0 中的第二代 FSD 價(jià)格相差 150 美元。

特斯拉 HW3.0 使用的是 8 片 2GB 的 LPDDR4，每片大約 3.5 美元，8 片只有28 美元。

當(dāng)然，這當(dāng)中最大贏家是美光，車載領(lǐng)域80%的 DRAM 市場(chǎng)均來自美光。美光是美國(guó)唯一存儲(chǔ)器公司，也是除英特爾外美國(guó)本土幾乎唯一的硬科技公司（AMD 的制造均由臺(tái)積電完成）。

總體來看，車載領(lǐng)域目前都是使用 LPDDR，特斯拉再次開創(chuàng)先河：首次在車載領(lǐng)域使用GDDR。

01、什么是內(nèi)存？

在細(xì)說 GDDR 前，我們先來了解內(nèi)存的概念。

運(yùn)算系統(tǒng)有兩種存儲(chǔ)：

一種是斷電后存儲(chǔ)內(nèi)容不丟失的非易失性存儲(chǔ)器（英語：Non-Volatile Memory，縮寫：NVM），最常見的 NVM 是Flash 存儲(chǔ)器；

還有一種是斷電后存儲(chǔ)內(nèi)容就消失的易失性存儲(chǔ)器，即 RAM。

RAM 又分為兩類：

DRAM（Dynamic Random Access Memory，動(dòng)態(tài)隨機(jī)存取記憶體）；
SRAM（Static Random Access Memory，靜態(tài)隨機(jī)存取記憶體）。

通常內(nèi)存指的是 RAM，準(zhǔn)確地說應(yīng)該叫緩存或暫存。

NVM 原理類似電容，因此其讀出寫入速度很慢，跟 CPU 速度比差太多。為了 NVM 和 CPU 兩者協(xié)調(diào)工作，加入內(nèi)存做中轉(zhuǎn)緩沖，可以說，RAM 計(jì)算單元與數(shù)據(jù)或指令存儲(chǔ)之間的橋梁。

對(duì)于 AI 加速器來說，內(nèi)存尤為重要。

所謂 AI 運(yùn)算，就是矩陣乘積累加，輸入矩陣與權(quán)重矩陣之間的乘積累加，需要頻繁地讀取權(quán)重矩陣或者說訓(xùn)練好的模型參數(shù)。

模型參數(shù)越大，自然就需要更高的帶寬，一次性讀出更多的參數(shù)。

小模型的魯棒性和可移植性很差，因此人類 AI 的發(fā)展方向就是越來越大的模型，參數(shù)越來越多。

機(jī)器視覺的奠基者 ResNet 50 是 2500 萬個(gè)參數(shù)，自動(dòng)駕駛領(lǐng)域目前正火的 Transformer 在 9 千萬到 3.4 億之間，ViT 變種是 20 億，GPT3 是驚人的1750 億。

自動(dòng)駕駛遲早也會(huì)達(dá)到這個(gè)規(guī)模。

模型平均每?jī)赡陼?huì)增加 240 倍，內(nèi)存帶寬兩年只會(huì)增加兩倍。

SRAM 速度很高，高性能 AI 芯片需要盡量多的 SRAM。

SRAM 價(jià)格也高，差不多每 MB 價(jià)格是80-100 美元，通常 AI 訓(xùn)練用芯片需要 50MB 以上的 SRAM，也就意味著5000 美元的成本。

SRAM 需要6 個(gè)晶體管，并且晶體管之間的通道即有效寬度 Weff 在目前主流的 FinFET 工藝下，SRAM 的縮微很困難。

臺(tái)積電 N3 即 3 納米工藝，N3 具有 0.0199μm2的 SRAM 位單元大小，與 N5（5 納米工藝）的 0.021μm2 SRAM 位單元相比僅縮小了~5%。

改進(jìn)后的 N3E（3 納米擴(kuò)展）變得更糟。

因?yàn)樗鋫淞?0.021 μm2 SRAM 位單元（大致轉(zhuǎn)換為 31.8 Mib / mm2），這意味著與 N5 相比根本沒有縮放，再延伸就是芯片的成本增加了，性能卻沒有。

目前 AI 模型尺寸越來越大，超過 20GB 已是常態(tài)。

使用 SRAM 來存儲(chǔ)，芯片價(jià)格輕易突破100 萬美元，即使是不太在乎價(jià)錢的服務(wù)器也承受不起。

因此，我們只能退而求其次——HBM，即 High Bandwidth Memory，每 GB 的 HBM 成本大約20 美元。

如上圖，簡(jiǎn)單概括：

HBM 是將 SDRAM 用 TSV（硅通孔）工藝堆疊起來，如同蓋樓，層和層之間會(huì)有金屬層等間隔，同時(shí)通過 TSV 聯(lián)通各個(gè)存儲(chǔ)單元。

TSV 是內(nèi)存能夠堆疊的關(guān)鍵，它能夠在各個(gè)存儲(chǔ)層之間以及層內(nèi)構(gòu)建出硅通孔的通路，存儲(chǔ)單元的訪問就通過這些通孔完成。

在了解 HBM 之前，我們需要明白幾個(gè)內(nèi)存基本概念——密度、速度和帶寬。

密度指的就是容量。

速度有兩種描述，一是頻率即MHz，另一種是MT/s，后一種方式越來越成為主流。

速度就好比高速公路的最高時(shí)速，帶寬就好比高速公路的車道數(shù)。

HBM 是以犧牲速度來提高帶寬的。

1MHz=1000KHz=1000000Hz 等于 1 秒內(nèi)高低電平信號(hào)切換100 萬次。

MT/s 全稱 Million Transfers Per Second 意為每秒百萬次傳輸。

1T/s 和 1Hz，這兩個(gè)單位前者指的是每秒做了一次傳輸，后者指每秒 1 時(shí)鐘周期。

因?yàn)?DDR 內(nèi)存信號(hào)每個(gè)時(shí)鐘信號(hào)可以傳輸 2 次，所以實(shí)際的傳輸速率為 1Hz 等于 2T/s，1MHz 等于2MT/s。

在 DDR5 發(fā)布后，內(nèi)存性能規(guī)格的單位選擇了 MT/s 為主，英特爾和金士頓、美光、威剛、芝奇等 PC 行業(yè)的領(lǐng)頭企業(yè)也紛紛跟進(jìn)這一策略，將內(nèi)存性能的衡量單位改為MT/s。

對(duì) CPU 來說，主要是串行數(shù)據(jù)流，速度就顯得較為重要。

而 AI 和 GPU 是并行計(jì)算，帶寬則比速度重要。

系統(tǒng)最大內(nèi)存帶寬= 內(nèi)存標(biāo)稱頻率*內(nèi)存總線位數(shù)*通道數(shù)
實(shí)際內(nèi)存帶寬 = 內(nèi)存標(biāo)稱頻率*內(nèi)存總線位數(shù)*實(shí)際使用的通道數(shù)
實(shí)際內(nèi)存帶寬=內(nèi)存核心頻率*內(nèi)存總線位數(shù)*實(shí)際使用的通道數(shù)*倍增系數(shù)

我們以車載領(lǐng)域的 LPDDR 為例來描述帶寬：

歷代 LPDDR 參數(shù)，注意位寬等同于 Maximum density，這是 CPU 一次能拿走的數(shù)據(jù)最大密度，用于 GPU 的最大密度就可以輕易達(dá)到 384bit。

特斯拉初代 FSD 使用的 LPDDR4，型號(hào)是 MT53D512M32D2DS-046 AAT，容量為 16Gb，總共 8 片，I/O 頻率 2133MHz，單通道的話，其帶寬為 2133*64*16，即 273GB/s。

HBM 采用物理堆疊，它的總線位寬可以是并聯(lián)形式，每個(gè) Die 有 2 個(gè) 128bit 位寬的通道，HBM1 只有 4 層堆疊叫做 4-Hi，帶寬可以達(dá)到 4*2*128=1024bit，HBM2 的 I/O 頻率是 1107MHz，倍頻系數(shù)是 2。

以英偉達(dá) V100S 加速器為例，用了 4 顆 HBM2，帶寬是 1107*2*4*1028/8/1000，即 1134GB/s——比 LPDDR4 要高很多。

HBM3 頻率提到 1600MHz，堆疊提高到 16 層，比 HBM1 高出 4 倍。

英偉達(dá)最新旗艦 H100 有多個(gè)版本，其中頂配使用 HBM3 內(nèi)存 5 顆，每顆 16GB，帶寬是 5*1600*2*16*1028，也就是3350GB/s。

HBM 通過基板的硅互聯(lián)層與主處理器連接，物理距離遠(yuǎn)遠(yuǎn)小于 PCB 上內(nèi)存與處理器之間的連接，幾乎逼近 L3 緩存的連接距離，盡管其運(yùn)行頻率不高，但是這個(gè)速度是真實(shí)速度，沒有任何水分。

另外需要指出的是，DDR 包括 LPDDR 和 HBM 這類存儲(chǔ)，其真實(shí)的核心頻率很低，在 133MHz 到 200MHz 之間。

不過為了數(shù)字漂亮，幾乎沒有廠家提到核心頻率。

核心頻率提高會(huì)導(dǎo)致功耗大增，這也是內(nèi)存速度一直比較慢的真正原因。

來一張 H100 的高清大圖：

H100 分兩種，一種是SXM，另一種是PCIe。

H100 SXM5 的 INT8 算力峰值可達(dá) 4000TOPS，PCIe 是 3200TOPS。

注意 H100 主芯片旁邊的 6 個(gè)緊貼著的芯片（有一個(gè)是空的，為了對(duì)稱散熱設(shè)計(jì)的，實(shí)際只有 5 個(gè)），那就是昂貴的 HBM3，由韓國(guó) SK Hynix 提供。

目前全球只有 SK Hynix 能夠量產(chǎn) HBM3，也只有英偉達(dá)一個(gè)用戶。

HBM 缺點(diǎn)一是貴，二是必須 3D 堆疊，三是散熱不易。

因?yàn)樗嵌询B的，考慮到成本比較高，只有服務(wù)器和 AI 訓(xùn)練領(lǐng)域才有人用 HBM，推理領(lǐng)域還未見到。

HBM 再退一步，就是今天的主角：GDDR。

02、為何特斯拉不惜血本用 GDDR6？

GDDR，可以說是廉價(jià)版 HBM。

GDDR 是 Graphics Double Data Rate 的縮寫，是為 GPU 而生的內(nèi)存。

GPU 和 AI 處理器，沒有 L1/L2/L3 級(jí)緩存的概念，因?yàn)樗暮诵臄?shù)量太多，不可能給每個(gè)核心配備緩存，那樣做成本太高了。

GDDR 從第五代完全成熟，之前的四代都是基于傳統(tǒng) DDR，曇花一現(xiàn)生命周期很短，而 GDDR5 生命周期已經(jīng)超過10 年。

GDDR5 最大提升是頻率提高了 4 倍，采用了所謂 QDR 技術(shù)，DDR 是半雙工，QDR 是全雙工，它有兩條數(shù)據(jù)總線，兩條都可以同時(shí)讀寫。

比如 GDDR5 的 I/O 頻率通常是 1750MHz，實(shí)際 I/O 頻率是 1750*4=7000MHz。單顆 GDDR5 的帶寬就是 32*7G/8=28GB/s。

GDDR6 再進(jìn)一步，將預(yù)取 prefetch size 數(shù)據(jù)從 8n 增加到 16n，帶寬再翻倍，單 bank 通?？蛇_(dá) 56GB/s。

以特斯拉的 16 顆 GDDR6 為例，帶寬是 56*16=896GB/s，是初代 LPDDR4 的 3 倍多，但跟 HBM3 差別還是很大。

上圖為各種 GDDR 參數(shù)對(duì)比：

GDDR5X 的總線是 352 位，就是最大支持 11 顆 32bit 的 GDDR 并聯(lián)，合計(jì)總線寬度 352bit。

GDDR6 就是最大支持 12 顆 32bit 的 GDDR6 并聯(lián)，合計(jì)總線寬度 384 位。

GPU 是并行計(jì)算，CPU 想做到這么高的位寬就比較困難。

2019 年開始出現(xiàn) GDDR6X，也就是 GDDR7 的預(yù)演版，最大改變是引入 PAM4 編碼，單顆達(dá)到 84GB/s，12 顆帶寬超過1TB/s。

雖然理論上 GDDR6X 采用 PAM4 信號(hào)調(diào)制方式，配合 MTA 編碼技術(shù)，GDDR6X 的能效提升很多。

同樣是 8 顆顯存，GDDR6X 能效比相比 GDDR6 的每比特能耗要低15%。

實(shí)際測(cè)試中，搭載 10GB GDDR6X 顯存的 RTX3080 的顯存功耗高達(dá) 70W，24GB GDDR6X 顯存的 RTX3090 的顯存功耗更是上到130W，是十足的耗電大戶。

不過 GDDR 和 HBM 都是針對(duì)并行計(jì)算的，注重帶寬，不注重速度。

GDDR6 的 CSA 延遲是 DDR4 的2 倍多，也就是說 GDDR 和 HBM 不適合用在 CPU 上。

CPU 是有序列的串行運(yùn)算為主，因此英偉達(dá) Grace Hopper Superchip 的 CPU 部分還是使用了LPDDR5X。

而目前全球算力最高的設(shè)備，是大約 25 萬美元的英偉達(dá) DGX-H100，CPU 部分是英特爾的 Sapphire Rapids 即 Xeon W3XXX 系列（旗艦產(chǎn)品近 6000 美元一片）。

此前的 DGX-A100，CPU 是 AMD 的 EPYC Rome。

對(duì)應(yīng) CPU 的是 SK Hynix 的 DDR5，當(dāng)然英特爾的 Xeon 做并行計(jì)算也可以，畢竟它是 56 核心。所以英特爾 Sapphire Rapids 也支持 HBM2E，但首選還是 DDR5。

特斯拉的二代 FSD 也有 CPU 部分，即 20 核心的 ARM Cortex-A72。

但特斯拉對(duì) AI 算力更在意，或者說特斯拉有算力焦慮。

英偉達(dá)在算力方面太強(qiáng)大了，特斯拉寧肯弱化一點(diǎn) CPU 也要上 GDDR6，并且是不惜成本。

特斯拉熱衷于大模型，為了保證足夠高的效率，我推測(cè)特斯拉三代 FSD 芯片估計(jì)要使用昂貴的 HBM3，至少要裝下全部權(quán)重模型，估計(jì)容量不低于 50GB。

單這部分成本，就不低于 1000 美元，未來特斯拉三代 FSD 的成本最低也在 1500 美元以上。

同樣，如果自動(dòng)駕駛行業(yè)還熱衷于人工智能，那么 5 年后的自動(dòng)駕駛芯片成本最低也要2000 美元以上。

來源：第一電動(dòng)網(wǎng)

作者：汽車之心

本文地址：http://ewshbmdt.cn/kol/197094

返回第一電動(dòng)網(wǎng)首頁 >

文中圖片源自互聯(lián)網(wǎng)，如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com（#替換成@）刪除。

贊22

分享到：

發(fā)表評(píng)論

新聞推薦

大牛作者

汽車之心

微信公號(hào)Auto-Bit。汽車之心是一家專注智能汽車與自動(dòng)駕駛的媒體和知識(shí)服務(wù)平臺(tái)，定位于推動(dòng)汽車與科技的融合。我們的團(tuán)隊(duì)由一群熱愛汽車與新技術(shù)的資深媒體人、產(chǎn)品人與自動(dòng)駕駛行業(yè)從業(yè)者組成。歡迎添加微信號(hào)autobitxyz給我們提意見。