大模型LLM
-
Attention Please! MLA、MHA、MQA与GQA原理与代码实现
多头注意力机制(Multi-Head Attention,MHA) 多头注意力(Multi-Head Attention, MHA)是Transformer模型的核心机制,通过并行计算多个注意力头,使模型能够同时关注输入序列中不同位置的特征。其核心思想是将输…
-
DeepSeek超全指南【本地部署、构建知识库、指令技巧、热门客户端】
Deepseek本地部署方法和构建个人知识库,指令技巧,配合客户端和插件使用。在 Word和WPS中又如何调用Deepseek服务?
-
DeepSeek-R1是怎样炼成的?
DeepSeek-R1反响非常大,主要是因为使用较低的成本得到了OpenAI O1的效果。开源还便宜。 在这篇文章中,我们将了解它是如何构建的。 目录: DeepSeek-R1 的训练方法 1. 大规模推理导向强化学习 (R1-Zero) 2. R1 …
-
ollama run Model on Hugging Face Hub
之前写了篇比较全的ollama使用文档:https://www.icnma.com/ollama-tutorial/ 本篇主要是如何使用ollama直接运行huggingface上的gguf模型。 直接使用Ollama在Hugging Face上任何GGUF quant model,而无需创建新的Mo…