GPU 與 TPU：關鍵差異對比

2025-12-08
3:22 上午
3C科技, 新政財經, 重點新聞
莫慕容

［外電編譯/江春華］Investing.com – 根據 BofA Securities 最近的一份報告，顯卡巨頭英偉達最新的 Blackwell Ultra GPU 和搜索巨頭 Google 的 TPU v7 Ironwood 處理器在人工智能計算方面呈現截然不同的方法，在架構、性能和成本方面存在關鍵差異，這可能重塑 AI 基礎設施格局。

(新聞來源 / Reuters)

物理規格顯示，英偉達 GB300 是較大的晶片，使用台積電 4NP 製程，在 1,600 平方毫米晶片上擁有 2,080 億晶體管，而 Google 的 TPU v7 則使用台積電更先進的 N3P 製程，在 1,200-1,500 平方毫米晶片上包含超過 500 億晶體管。

根據分析，GB300 配備 288 GB HBM3e 記憶體，帶寬為 8 TB/s，相比之下，TPU v7 的記憶體為 192 GB，帶寬為 7.4 TB/s。報告顯示，原始計算性能根據精度要求而有所不同。對於 FP4 密集型工作負載，GB300 提供 15 petaflops，而 TPU v7 不原生支持這種精度。

根據規格，對於 FP8 密集型工作負載，GB300 達到 5 petaflops，而 TPU v7 為 4.614 petaflops。

分析發現，功耗和效率指標在不同工作負載類型下差異顯著。GB300 每晶片消耗 1.4 千瓦，相比之下，每個 TPU 估計消耗 0.85 千瓦。對於 FP4 工作負載，GB300 達到每瓦 10.71 teraflops，而 TPU v7 約為每瓦 5.42 teraflops；但對於 FP8 工作負載，TPU v7 提供約每瓦 5.42 teraflops，而 GB300 為每瓦 3.57 teraflops。

系統架構方面，規格顯示英偉達採用 Grace CPU，配合 NVLink 5 互連，每 GPU 提供 1.8 TB/s，而 Google 使用 Marvell Axion CPU，配合 ICI 網格，每 TPU 提供 1.2 TB/s。

擴展能力展示了不同的理念。根據分析，GB300 每機架支持 72 個晶片，每個 pod 橫跨 8 個機架支持 576 個晶片，消耗約 1 兆瓦，單個機架耗電 120-130 千瓦。

報告指出，TPU v7 每機架容納 64 個晶片，但每個 pod 可擴展至 144 個機架的 9,216 個晶片，消耗 10 兆瓦。

規格顯示，在 pod 級別，GB300 在 FP4 工作負載下提供 8.64 exaflops，在 FP8 工作負載下提供 2.88 exaflops，而 TPU v7 在 FP8 工作負載下達到 42.5 exaflops。

根據美國銀行的估計，總擁有成本因應用而異。GB300 NVL72 每晶片每小時成本約為 6.30 USD，而內部使用 TPU v7 約為 3.50 USD，外部客戶約為 4.38 USD。

報告計算，這轉化為 GB300 FP4 工作負載每小時 0.42 USD，相比之下，TPU v7 內部為每小時 0.76 USD 或外部約 0.95 USD；GB300 FP8 工作負載每小時 1.26 USD，而 TPU v7 內部為每小時 0.76 USD 或外部約 0.95 USD。

根據分析，軟體兼容性差異顯著，英偉達支持 CUDA、TensorRT-LLM、PyTorch、JAX 和 Triton，而 Google 的 TPU 適用於 JAX/XLA、TensorFlow 和新興的 PyTorch/XLA。< 報告補充說，實際性能很大程度上取決於特定工作負載、優化和生態系統支持>【新政財經論壇/財經中心記者】