张量并行
-
【DeepSpeed】3D 并行原理解读
DeepSpeed 的 3D 并行 是一种高级分布式训练策略,通过结合 数据并行 (Data Parallelism, DP)、模型并行 (Model Parallelism, MP) 和 流水线并行 (Pipeline Parallelism, PP),在多 GPU 和多节点环境中高效训练超大…
-
大模型的N种并行训练方法汇总
数据并行 数据并行,就是将数据集分为N份,分别装载到N个GPU节点中,每个GPU节点持有一个完整的模型副本,分别基于每个GPU中的数据去进行梯度求导。在GPU0上对每个GPU中的梯度进行累加,最后,再将GPU0聚合后的结果…