bloom
-
大模型算法工程师面试问题汇总
一、基础理论与数学 深度学习基础:前馈网络、反向传播、梯度消失/爆炸 常见激活函数(ReLU, GeLU, Swish)及其优缺点 损失函数:交叉熵、MSE、对比学习损失(InfoNCE) 优化器原理(Adam, AdamW, LAMB)与超参数调…
-
【DeepSpeed】3D 并行原理解读
DeepSpeed 的 3D 并行 是一种高级分布式训练策略,通过结合 数据并行 (Data Parallelism, DP)、模型并行 (Model Parallelism, MP) 和 流水线并行 (Pipeline Parallelism, PP),在多 GPU 和多节点环境中高效训练超大…
-
文本生成模型解码策略对比(13种)
目前常见的文本生成解码策略对比分析,涉及到Greedy Search、Beam Search、Top-K采样、Top-p(核)抽样、对比搜索解码策略、Multinomial sampling 多项抽样、Beam-search multinomial sampling、多样化波束搜索解码
-
Bloom论文阅读笔记,大模型是怎么训练的?
Bloom是一个开源可商用模型,它是如何一步步设计的?用了哪些数据和硬件资源?模型结构细节是怎样的?训练细节是怎样的?......