AWS P5 執行個體配 NVIDIA H100 GPU　美國兩個區域可用訓練大型 AI 模型

NVIDIA 去年 9 月推出 AI 運算 GPU H100 之後，公共雲平台陸續採購和完成安裝，相繼正式可用，最新有 AWS 推出 P5 執行個體，利用 AMD 第三代 EPYC 處理器，配最多 8 個 NVIDIA H100 Tensor Core GPU 。相較上一代用 A100 GPU 的 P4 執行個體， P5 可以將訓練時間縮減六倍，也節省最多 40% 訓練成本。

P5 執行個體採用 AMD 第三代 EPYC 7R13 處理器，2TB 記憶體，30TB 本地 NVMe 快閃記憶體儲存，配上最多 8 個 NVIDIA H100 GPU，具備 640GB 高頻寬記憶體。P5 執行個體採用 3200 Gbps 聚合網絡頻寬，支援 GPUDirect RDMA 繞過 CPU 直接在 GPU 之間傳送數據。

P5 執行個體適用於訓練大型語語模型和電腦視覺模型，也可用於運行生成式 AI 程式。較上一代用 A100 GPU 的 P4 執行個體， P5 可以將訓練時間縮短六倍。使用 FP8 數據類型的運算，如 Transformer 框架的語言模型，由 NVIDIA Transformer Engine 支援提升六倍效能。

NVIDIA 將 H100 GPU 用於建立超級電腦，AWS 亦以此技術加入在第二代 Amazon EC2 UltraClusters。這伺服器叢集目前有兩萬個 H100 GPU，在內的 P5 執行個體提供合共 20EFLOPS 運算能力。

P5 執行個體目前只在美國東部北維珍尼亞州（ us-east-1 ）和西部俄勒岡州（ us-west-2 ）區域可用。

AWS P5 執行個體配 NVIDIA H100 GPU 美國兩個區域可用訓練大型 AI 模型

最新影片

您會感興趣的內容

相關文章

AWS P5 執行個體配 NVIDIA H100 GPU　美國兩個區域可用訓練大型 AI 模型