流水线并行

  • 【DeepSpeed】3D 并行原理解读

    DeepSpeed 的 3D 并行 是一种高级分布式训练策略,通过结合 数据并行 (Data Parallelism, DP)、模型并行 (Model Parallelism, MP) 和 流水线并行 (Pipeline Parallelism, PP),在多 GPU 和多节点环境中高效训练超大…

    人工智能 21/05/2025
    01820
  • 大模型的N种并行训练方法汇总

    数据并行 数据并行,就是将数据集分为N份,分别装载到N个GPU节点中,每个GPU节点持有一个完整的模型副本,分别基于每个GPU中的数据去进行梯度求导。在GPU0上对每个GPU中的梯度进行累加,最后,再将GPU0聚合后的结果…

    21/03/2024
    02.6K0