均方层归一化RMSNorm(均方根标准化)

JiangYuan • 24/05/2025 10:32 • 人工智能, 自然语言处理 • 2816 views

一、理论基础

layer normalization 重要的两个部分是平移不变性和缩放不变性。 Root Mean Square Layer Normalization 认为 layer normalization 取得成功重要的是缩放不变性，而不是平移不变性。因此，去除了计算过程中的平移，只保留了缩放，进行了简化，提出了RMS Norm（Root Mean Square Layer Normalization），即均方根 norm。

均方层归一化RMSNorm(均方根标准化)

Layer Normalization (LayerNorm)	Root Mean Square Layer Normalization (RMSNorm)
对特征张量按照某一维度或某几个维度进行0均值，1方差的归一化操作 LayerNorm 是一种标准化方法，它计算一个样本的均值和方差，然后使用这些来对样本进行归一化。这种方法是独立于批量大小的，使得模型更加稳定。	RMSNorm是对LayerNorm的一个改进，没有做re-center操作（移除了其中的均值项），可以看作LayerNorm在均值为0时的一个特例。论文通过实验证明，re-center操作不重要。RMSNorm 也是一种标准化方法，但与 LayerNorm 不同，它不是使用整个样本的均值和方差，而是使用平方根的均值来归一化，这样做可以降低噪声的影响。

二、代码实现


# 均方根标准化
class RMSNorm(torch.nn.Module):
    def __init__(self,normalized_shape,eps=1e-5,devices=None,dtype=None,**kwargs):
        super().__init__()
        self.weight=torch.nn.Parameter(torch.empty(size=normalized_shape,device=devices,dtype=dtype))   #待训练的参数
        self.eps=eps
    def forward(self,hidden_state:torch.Tensor):
        input_type=hidden_state.dtype
        variace=hidden_state.to(torch.float32).pow(2).mean(-1,keepdim=True)
        hidden_state=hidden_state*torch.rsqrt(variace+self.eps)
        return (hidden_state*self.weight).to(input_type)
if __name__ == '__main__':
    x=RMSNorm(normalized_shape=[3,4])
    y=x(torch.randn(size=(3,4)))
    print(y)

https://arxiv.org/pdf/1910.07467

原创文章。转载请注明：作者:JiangYuan 网址: https://www.icnma.com

Like (0)

JiangYuan管理

0 0

【DeepSpeed】3D 并行原理解读

Previous 21/05/2025 21:01

Attention：MLA、MHA、MQA与GQA

Next 17/06/2025 10:48

深度学习

LangChain使用

Langchain是什么？ Langchain可以说是现阶段十分值得学习的一个AI架构，它标准的定义了我们在构建一个LLM应用开发时可能会用到的东西。比如说在之前写过的AI文章中介绍的prompt，就可以通过Langchain中的PromptTemp…

JiangYuan
21/03/2024
012.6K0
留学攻略

智能留学咨询，Chatbot走进马来亚大学，一款留学对话机器人

工作之余，我开发了一款留学问答机器人，服务母校马来亚大学的学弟学妹们。提高留学申请时获取关键信息的效率。

meixi
11/01/2023
002.3K0
人工智能

Embedding模型微调：基于已有数据快速构建训练与评估数据集

? 本文目标本文主要面向希望在特定领域或任务中提升Embedding模型表现的初学者。希望读完之后，能帮助大家：准确理解Embedding模型微调的核心概念及其对数据集的依赖。初步掌握基于已有数据构建高质量微调训练集…

JiangYuan
21/05/2025
002.1K0
深度学习

自动信息抽取系统

本文包括用于文本识别的 OCR、用于信息提取的语言模型和 NER，以及用于特定数据模式匹配和填写表单的正则表达式/规则。 1. 文本数据提取格式：基于文本的 PDF、基于图像的 PDF、图像为了有效地从这些格式中提取文…

JiangYuan
23/03/2024
003.0K0
人工智能

ollama run Model on Hugging Face Hub

之前写了篇比较全的ollama使用文档：https://www.icnma.com/ollama-tutorial/ 本篇主要是如何使用ollama直接运行huggingface上的gguf模型。直接使用Ollama在Hugging Face上任何GGUF quant model，而无需创建新的Mo…

meixi
25/11/2024
003.0K0

动化任务的数据处理和建模框架，机器人流程自动化（RPA）解决方案
20/01/2025 16:48
Share to:

SAYN 是一个现代数据处理和建模框架。用户定义任务（包括 Python、自动 SQL 转换等）及其关系，SAYN 负责其余工作。它旨在实现简单性、灵活性和集中化，以便为数据工程工作流程带来显著的效率提升。

有许多优秀的工具和公司助力工作流程自动化的发展：

1. Workflow Max：Workflow Max 是一款专注于工作流程自动化的小型企业管理系统，涵盖项目管理、财务核算、客户管理等业务。
2. Automation Anywhere：Automation Anywhere 是一款智能自动化平台，提供机器人流程自动化（RPA）解决方案，广泛应用于各种行业。
3. UiPath：UiPath 是一款 RPA 平台，为企业提供自动化解决方案，涵盖业务流程、桌面应用、Web 应用等。
4. Blue Prism：Blue Prism 是一款 RPA 平台，支持企业级自动化流程，具有高度可扩展性和安全性。 [Read More]
TorchLeet：PyTorch的练习题库
20/01/2025 16:45
Share to:

PyTorch的练习题库，就像编程界的“题海战术”，通过各种难度的实践题目，帮助你从新手到高手，掌握深度学习和PyTorch的精髓。 [Read More]
OpenFlux新版本！8B的Flex.1 alpha发布了
20/01/2025 16:44
Share to:

微调配置：
https://github.com/ostris/ai-toolkit/blob/main/config/examples/train_lora_flex_24gb.yaml [Read More]
RPA 自动化机器人 Robot Framework
19/10/2024 10:26
Share to:

Robot Framework 是一个通用的开源自动化框架，用于验收测试、验收测试驱动开发 (ATDD) 和机器人流程自动化 (RPA)。它具有简单的纯文本语法，并且可以使用通用和自定义库轻松扩展。
安装起来也简单。只要你的机器上装了Python和pip，直接在命令行里输入以下命令即可：

```
pip install robotframework
```
操作手册：
https://robotframework.org/robotframework/latest/RobotFrameworkUserGuide.html
llama-agent 让每个 agent 都是一个独立运行的微服务。
30/06/2024 20:04
Share to:

用户可以自由定制它们的功能和交互方式,还可以灵活部署、监控和扩展。无需再为分布式架构烦恼,只需专注于你的应用逻辑。