萬顆GPU的訓練——分散式機器學習——系統工程與實戰

{{ _getLangText('m_detailInformation_goodsAuthorText') }}柳浩

{{ _getLangText('m_detailInformation_goodsPublisherText') }}深智

2024年01月20日

ISBN：9786267383278

＊分散式機器學習機礎，包括資料、模型、管線的並行

＊集合通訊的重要性、參數伺服器PS-Lite

＊PyTorch DataParalle、PyTorch DDP的基礎及動態邏輯

＊Uber Horovod的原理及實作

＊GPipe、PyTorch的管線並行及PipeDream基礎架構及實作

＊Megatron原理及實作、PyTorch的模型並行原理實作

＊分散式運算的最佳化器

＊TensorFlow的分散式環境，靜態架構、動態邏輯

＊分散式架構的策略基礎、MirroredStrategy、ParameterServerStrategy

本書書以PyTorch為主體講解，從系統和實踐的角度對分散式機器學習進行整理。

包括了第1篇分散式基礎，介紹了分散式機器學習的基本概念、基礎設施，以及機器學習並行化的技術、框架和軟體系統，然後對集合通訊和參數伺服器PS-Lite進行了介紹。

第2篇介紹資料並行，將計算負載切分到多張卡上，實作為PyTorch及Horovod。

第3篇介紹模型並行，主要說明了張量模型並行及管線模弄並行，讓模型可以放入多節點上。

第4篇NVIDIA Megatron進行分析，講解如何進行層內分割模型並行，然後學習PyTorch如何支援模型並行。

第5篇則是將全書的內容用TensorFlow實作，讓已經熟悉TensorFlow的使用者不必重新學習新的框架。

{{ isMore ? _getLangText("m_detailIntroduction_goodsIntroductionHideText") : _getLangText("m_detailIntroduction_goodsIntroductionShowText") }}

{{_getLangText("m_detailIntroduction_goodsIntroductionText") }}