均方层归一化RMSNorm(均方根标准化)

JiangYuan • 24/05/2025 10:32 • 人工智能, 自然语言处理 • 345 views

一、理论基础

layer normalization 重要的两个部分是平移不变性和缩放不变性。 Root Mean Square Layer Normalization 认为 layer normalization 取得成功重要的是缩放不变性，而不是平移不变性。因此，去除了计算过程中的平移，只保留了缩放，进行了简化，提出了RMS Norm（Root Mean Square Layer Normalization），即均方根 norm。

均方层归一化RMSNorm(均方根标准化)

Layer Normalization (LayerNorm)	Root Mean Square Layer Normalization (RMSNorm)
对特征张量按照某一维度或某几个维度进行0均值，1方差的归一化操作 LayerNorm 是一种标准化方法，它计算一个样本的均值和方差，然后使用这些来对样本进行归一化。这种方法是独立于批量大小的，使得模型更加稳定。	RMSNorm是对LayerNorm的一个改进，没有做re-center操作（移除了其中的均值项），可以看作LayerNorm在均值为0时的一个特例。论文通过实验证明，re-center操作不重要。RMSNorm 也是一种标准化方法，但与 LayerNorm 不同，它不是使用整个样本的均值和方差，而是使用平方根的均值来归一化，这样做可以降低噪声的影响。

二、代码实现


# 均方根标准化
class RMSNorm(torch.nn.Module):
    def __init__(self,normalized_shape,eps=1e-5,devices=None,dtype=None,**kwargs):
        super().__init__()
        self.weight=torch.nn.Parameter(torch.empty(size=normalized_shape,device=devices,dtype=dtype))   #待训练的参数
        self.eps=eps
    def forward(self,hidden_state:torch.Tensor):
        input_type=hidden_state.dtype
        variace=hidden_state.to(torch.float32).pow(2).mean(-1,keepdim=True)
        hidden_state=hidden_state*torch.rsqrt(variace+self.eps)
        return (hidden_state*self.weight).to(input_type)
if __name__ == '__main__':
    x=RMSNorm(normalized_shape=[3,4])
    y=x(torch.randn(size=(3,4)))
    print(y)

https://arxiv.org/pdf/1910.07467

原创文章。转载请注明：作者:JiangYuan 网址: https://www.icnma.com

Like (0)

JiangYuan管理

0 0

【DeepSpeed】3D 并行原理解读

Previous 21/05/2025 21:01

Attention：MLA、MHA、MQA与GQA

Next 17/06/2025 10:48

深度学习

大模型的N种并行训练方法汇总

数据并行数据并行，就是将数据集分为N份，分别装载到N个GPU节点中，每个GPU节点持有一个完整的模型副本，分别基于每个GPU中的数据去进行梯度求导。在GPU0上对每个GPU中的梯度进行累加，最后，再将GPU0聚合后的结果…

JiangYuan
21/03/2024
012.8K0
人工智能

DeepSeek超全指南【本地部署、构建知识库、指令技巧、热门客户端】

Deepseek本地部署方法和构建个人知识库，指令技巧，配合客户端和插件使用。在 Word和WPS中又如何调用Deepseek服务？

meixi
11/02/2025
0319.2K0
自然语言处理

开源对话机器人：Rasa3安装和基础入门

开源对话框架Rasa的安装和基本使用

meixi
07/03/2023
002.4K0
人工智能

Attention：MLA、MHA、MQA与GQA

多头注意力机制（Multi-Head Attention，MHA）多头注意力（Multi-Head Attention, MHA）是Transformer模型的核心机制，通过并行计算多个注意力头，使模型能够同时关注输入序列中不同位置的特征。其核心思想是将输…

meixi
17/06/2025
001660
自然语言处理

盘点那些热门的开源AI Agent框架【持续更新...】

开源的AI Agent框架：加速智能应用开发的利器

JiangYuan
29/02/2024
009.1K0

动化任务的数据处理和建模框架，机器人流程自动化（RPA）解决方案
20/01/2025 16:48
Share to:

SAYN 是一个现代数据处理和建模框架。用户定义任务（包括 Python、自动 SQL 转换等）及其关系，SAYN 负责其余工作。它旨在实现简单性、灵活性和集中化，以便为数据工程工作流程带来显著的效率提升。

有许多优秀的工具和公司助力工作流程自动化的发展：

1. Workflow Max：Workflow Max 是一款专注于工作流程自动化的小型企业管理系统，涵盖项目管理、财务核算、客户管理等业务。
2. Automation Anywhere：Automation Anywhere 是一款智能自动化平台，提供机器人流程自动化（RPA）解决方案，广泛应用于各种行业。
3. UiPath：UiPath 是一款 RPA 平台，为企业提供自动化解决方案，涵盖业务流程、桌面应用、Web 应用等。
4. Blue Prism：Blue Prism 是一款 RPA 平台，支持企业级自动化流程，具有高度可扩展性和安全性。 [Read More]
TorchLeet：PyTorch的练习题库
20/01/2025 16:45
Share to:

PyTorch的练习题库，就像编程界的“题海战术”，通过各种难度的实践题目，帮助你从新手到高手，掌握深度学习和PyTorch的精髓。 [Read More]
OpenFlux新版本！8B的Flex.1 alpha发布了
20/01/2025 16:44
Share to:

微调配置：
https://github.com/ostris/ai-toolkit/blob/main/config/examples/train_lora_flex_24gb.yaml [Read More]
RPA 自动化机器人 Robot Framework
19/10/2024 10:26
Share to:

Robot Framework 是一个通用的开源自动化框架，用于验收测试、验收测试驱动开发 (ATDD) 和机器人流程自动化 (RPA)。它具有简单的纯文本语法，并且可以使用通用和自定义库轻松扩展。
安装起来也简单。只要你的机器上装了Python和pip，直接在命令行里输入以下命令即可：

```
pip install robotframework
```
操作手册：
https://robotframework.org/robotframework/latest/RobotFrameworkUserGuide.html
llama-agent 让每个 agent 都是一个独立运行的微服务。
30/06/2024 20:04
Share to:

用户可以自由定制它们的功能和交互方式,还可以灵活部署、监控和扩展。无需再为分布式架构烦恼,只需专注于你的应用逻辑。