bloom
-
大模型算法工程师面试问题汇总
一、基础理论与数学 二、大模型架构与关键技术 三、训练与优化 四、推理与部署 五、大模型应用与评估 六、前沿与扩展 七、编程与工程 八、系统设计题常见考点 九、行为与行业认知 十、高阶问题 建议准备策略: 可重…
-
【DeepSpeed】3D 并行原理解读
DeepSpeed 的 3D 并行 是一种高级分布式训练策略,通过结合 数据并行 (Data Parallelism, DP)、模型并行 (Model Parallelism, MP) 和 流水线并行 (Pipeline Parallelism, PP),在多 GPU 和多节点环境中高效训练超大…
-
文本生成模型解码策略对比(13种)
目前常见的文本生成解码策略对比分析,涉及到Greedy Search、Beam Search、Top-K采样、Top-p(核)抽样、对比搜索解码策略、Multinomial sampling 多项抽样、Beam-search multinomial sampling、多样化波束搜索解码
-
Bloom论文阅读笔记,大模型是怎么训练的?
Bloom是一个开源可商用模型,它是如何一步步设计的?用了哪些数据和硬件资源?模型结构细节是怎样的?训练细节是怎样的?......