萬顆GPU的訓練——分散式機器學習——系統工程與實戰

{{ _getLangText('m_detailInformation_goodsAuthorText') }}柳浩
{{ _getLangText('m_detailInformation_goodsPublisherText') }}深智
2024年01月20日
ISBN:9786267383278
{{ _getLangText('m_detailInformation_goodsTips1Text') }}
{{ _getLangText('m_detailInformation_goodsActivityText') }}
{{ activityObj.name }}

{{_getLangText("m_detailIntroduction_goodsIntroductionText") }}

*分散式機器學習機礎,包括資料、模型、管線的並行

*集合通訊的重要性、參數伺服器PS-Lite

*PyTorch DataParalle、PyTorch DDP的基礎及動態邏輯

*Uber Horovod的原理及實作

*GPipe、PyTorch的管線並行及PipeDream基礎架構及實作

*Megatron原理及實作、PyTorch的模型並行原理實作

*分散式運算的最佳化器

*TensorFlow的分散式環境,靜態架構、動態邏輯

*分散式架構的策略基礎、MirroredStrategy、ParameterServerStrategy


本書書以PyTorch為主體講解,從系統和實踐的角度對分散式機器學習進行整理。


包括了第1篇分散式基礎,介紹了分散式機器學習的基本概念、基礎設施,以及機器學習並行化的技術、框架和軟體系統,然後對集合通訊和參數伺服器PS-Lite進行了介紹。


第2篇介紹資料並行,將計算負載切分到多張卡上,實作為PyTorch及Horovod。


第3篇介紹模型並行,主要說明了張量模型並行及管線模弄並行,讓模型可以放入多節點上。


第4篇NVIDIA Megatron進行分析,講解如何進行層內分割模型並行,然後學習PyTorch如何支援模型並行。


第5篇則是將全書的內容用TensorFlow實作,讓已經熟悉TensorFlow的使用者不必重新學習新的框架。