[外電編譯/江春華]Investing.com – 根據 BofA Securities 最近的一份報告,顯卡巨頭英偉達最新的 Blackwell Ultra GPU 和搜索巨頭 Google 的 TPU v7 Ironwood 處理器在人工智能計算方面呈現截然不同的方法,在架構、性能和成本方面存在關鍵差異,這可能重塑 AI 基礎設施格局。

(新聞來源 / Reuters)
物理規格顯示,英偉達 GB300 是較大的晶片,使用台積電 4NP 製程,在 1,600 平方毫米晶片上擁有 2,080 億晶體管,而 Google 的 TPU v7 則使用台積電更先進的 N3P 製程,在 1,200-1,500 平方毫米晶片上包含超過 500 億晶體管。
根據分析,GB300 配備 288 GB HBM3e 記憶體,帶寬為 8 TB/s,相比之下,TPU v7 的記憶體為 192 GB,帶寬為 7.4 TB/s。報告顯示,原始計算性能根據精度要求而有所不同。對於 FP4 密集型工作負載,GB300 提供 15 petaflops,而 TPU v7 不原生支持這種精度。
根據規格,對於 FP8 密集型工作負載,GB300 達到 5 petaflops,而 TPU v7 為 4.614 petaflops。
分析發現,功耗和效率指標在不同工作負載類型下差異顯著。GB300 每晶片消耗 1.4 千瓦,相比之下,每個 TPU 估計消耗 0.85 千瓦。對於 FP4 工作負載,GB300 達到每瓦 10.71 teraflops,而 TPU v7 約為每瓦 5.42 teraflops;但對於 FP8 工作負載,TPU v7 提供約每瓦 5.42 teraflops,而 GB300 為每瓦 3.57 teraflops。
系統架構方面,規格顯示英偉達採用 Grace CPU,配合 NVLink 5 互連,每 GPU 提供 1.8 TB/s,而 Google 使用 Marvell Axion CPU,配合 ICI 網格,每 TPU 提供 1.2 TB/s。
擴展能力展示了不同的理念。根據分析,GB300 每機架支持 72 個晶片,每個 pod 橫跨 8 個機架支持 576 個晶片,消耗約 1 兆瓦,單個機架耗電 120-130 千瓦。
報告指出,TPU v7 每機架容納 64 個晶片,但每個 pod 可擴展至 144 個機架的 9,216 個晶片,消耗 10 兆瓦。
規格顯示,在 pod 級別,GB300 在 FP4 工作負載下提供 8.64 exaflops,在 FP8 工作負載下提供 2.88 exaflops,而 TPU v7 在 FP8 工作負載下達到 42.5 exaflops。
根據美國銀行的估計,總擁有成本因應用而異。GB300 NVL72 每晶片每小時成本約為 6.30 USD,而內部使用 TPU v7 約為 3.50 USD,外部客戶約為 4.38 USD。
報告計算,這轉化為 GB300 FP4 工作負載每小時 0.42 USD,相比之下,TPU v7 內部為每小時 0.76 USD 或外部約 0.95 USD;GB300 FP8 工作負載每小時 1.26 USD,而 TPU v7 內部為每小時 0.76 USD 或外部約 0.95 USD。
根據分析,軟體兼容性差異顯著,英偉達支持 CUDA、TensorRT-LLM、PyTorch、JAX 和 Triton,而 Google 的 TPU 適用於 JAX/XLA、TensorFlow 和新興的 PyTorch/XLA。< 報告補充說,實際性能很大程度上取決於特定工作負載、優化和生態系統支持>【新政財經論壇/財經中心記者】





