安装 Dify 并集成 Ollama 和 Xinference

本文介绍了通过 Docker 安装 Dify,然后集成 Ollama 和 XInference,并利用 Dify 快速搭建一个基于知识库问答的应用。

安装 Dify 并集成 Ollama 和 Xinference

本文介绍了通过 Docker 安装 Dify,然后集成 Ollama 和 XInference,并利用 Dify 快速搭建一个基于知识库问答的应用。

  • 一、Dify 简介

  • 二、Dify 安装

  • 三、Dify 添加Ollama模型问答

  • 四、Dify 基于知识库问答

  • 五、文档链接

一、Dify 简介

Dify 是一款开源的大语言模型(LLM)应用开发平台,旨在帮助开发者快速构建和部署生成式 AI 应用。以下是 Dify 的主要功能和特点 [1]:

  • 融合 Backend as Service 和 LLMOps 理念:Dify 将后端即服务(Backend as Service)和 LLMOps 的理念结合,使开发者能够快速搭建生产级的生成式 AI 应用。
  • 支持多种模型:Dify 支持数百种专有和开源的 LLM 模型,包括 GPT、Mistral、Llama3 等,能够无缝集成来自多家推理提供商和自托管解决方案的模型。
  • 直观的 Prompt 编排界面:Dify 提供了一个直观的 Prompt IDE,用于编写提示、比较模型性能,并向基于聊天的应用程序添加语音转换等附加功能。
  • 高质量的 RAG 引擎:Dify 拥有广泛的 RAG 功能,涵盖从文档摄取到检索的一切,并支持从 PDF、PPT 等常见文档格式中提取文本。
  • 集成 Agent 框架:用户可以基于 LLM 函数调用或 ReAct 定义代理,并为代理添加预构建或自定义工具。Dify 提供了 50 多种内置工具,如 Google 搜索、DELL·E、Stable Diffusion 和 WolframAlpha。
  • 灵活的流程编排:Dify 提供了一个强大的可视化画布,用于构建和测试强大的 AI 工作流,使开发者可以直观地设计和优化他们的 AI 流程。
  • 全面的监控和分析工具:Dify 提供了监控和分析应用日志和性能的工具,开发者可以根据生产数据和注释不断改进提示、数据集和模型。
  • 后端即服务:Dify 的所有功能都附带相应的 API,因此可以轻松将 Dify 集成到您自己的业务逻辑中。

二、Dify 安装

拷贝 Dify Github代码到本地 [2]。

git clone https://github.com/langgenius/dify.git

进入 dify 源代码的 docker 目录,拷贝环境变量。

cd dify/docker
cp .env.example .env

通过docker compose安装应用。

docker compose up -d

进入ollama容器,启动qwen2:7b模型。

root@ip-172-31-30-167:~/dify/docker# docker pull ollama/ollama
root@ip-172-31-83-158:~/dify/docker# docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama --restart always -e OLLAMA_KEEP_ALIVE=-1 ollama/ollama
root@ip-172-31-83-158:~/dify/docker# docker exec -it ollama bash
root@b094349fc98c:/# ollama run qwen2:7b

三、Dify 添加Ollama模型问答

通过EC2的公网IP地址加上80端口,登录Dify主页,创建管理账户。通过管理员账号登录。

点击用户-设置,添加Ollama模型。安装 Dify 并集成 Ollama 和 Xinference

添加qwen2:7b模型,因为Ollama是在本机启动,所以设置URL为本地IP地址,端口为114341

qwen2-7b-instruct 利用YARN(一种增强模型长度外推的技术)支持 131,072 tokens上下文,为了保障正常使用和正常输出,建议API限定用户输入为 128,000 ,输出最大 6,144。[3]

安装 Dify 并集成 Ollama 和 Xinference

点击 工作室-创建空白应用

安装 Dify 并集成 Ollama 和 Xinference

创建“聊天助手”类型的应用,设置应用名称为Qwen2-7B,点击创建。

安装 Dify 并集成 Ollama 和 Xinference

为应用设置提示词"你是一个人工智能助手",可以和Qwen2:7B进行对话测试,这里是和大模型本身进行对话,没有引入外部的知识库,后续会引入知识库比较回答的结果。

安装 Dify 并集成 Ollama 和 Xinference

四、Dify 基于知识库问答

添加Xorbits Inference提供的模型。

安装 Dify 并集成 Ollama 和 Xinference

添加Text Embedding,即文本嵌入模型,模型的名称为bge-m3,服务器URL为http://172.31.30.167:9997(这里是本机的IP,也可以安装在其他机器,网络和端口可达即可),已经提前在本机上启动了XInference,并且启动了bge-m3模型(参考上一篇文章)。

安装 Dify 并集成 Ollama 和 Xinference

添加Rerank,即重排模型,模型的名称为bge-reraker-v2-m3,服务器URL为http://172.31.30.167:9997(这里是本机的IP,也可以安装在其他机器,网络和端口可达即可),已经提前在本机上启动了XInference,并且启动了bge-reraker-v2-m3模型(参考上一篇文章)。

安装 Dify 并集成 Ollama 和 Xinference

查看系统默认设置。安装 Dify 并集成 Ollama 和 Xinference

点击“知识库”-“导入已有文本”-“上传文本文件”-选择文档。导入成功后,设置文本检索方式,开启Rerank模型,选择bge-reranker-v2-m3模型,开启默认的Score阈值为0.5(即文本匹配度低于0.5分时,不会召回,不会添加到大模型的上下文中)。安装 Dify 并集成 Ollama 和 Xinference

在之前的聊天应用中,添加上面创建的知识库,重新询问大模型相同的问题,可以看到模型结合知识库进行了回答。安装 Dify 并集成 Ollama 和 Xinference

可以点击“Prompt日志”,查看日志文件,可以查看系统提示词,将匹配的知识库内容放在了<context></context>中。

安装 Dify 并集成 Ollama 和 Xinference

点击创建的知识库-点击“召回测试”,可以输入一段文本,用与匹配知识库中的文本,匹配到的文本有一个权重分数,上面设置过的阈值是0.5,即大于这个分数的才会显示为“召回段落”。

安装 Dify 并集成 Ollama 和 Xinference

五、文档链接

  • [1] Dify 官网:https://dify.ai/zh
  • [2] Dify Docker Compose 部署:https://docs.dify.ai/v/zh-hans/getting-started/install-self-hosted/docker-compose
  • [3] Qwen Token限制:https://help.aliyun.com/zh/dashscope/developer-reference/tongyi-qianwen-7b-14b-72b-api-detailes

原创文章。转载请注明: 作者:sea 网址: https://www.icnma.com
Like (0)
sea内部人员
Previous 12/06/2024 21:53
Next 20/10/2024 21:08

猜你想看

  • 大模型的N种高效部署方法:以LLama2为例

    通过部署LLama2示例,比较不同LLM开源推理服务框架的优缺点。本文没介绍深度学习模型推理服务的传统库,如TorchServe,KServe或Triton Inference Server。 1. vLLM 它的吞吐量比HuggingFace Transformer (HF) 高 …

    04/08/2023
    06.4K0
  • 用 LLM 将非结构化文本转为知识图谱

    核心内容:1. 构建知识图谱的挑战与LLM的解决方案2. 环境配置与关键Python库的安装使用3. 知识图谱的基本概念及其在项目中的应用实例 从非结构化文本中构建知识图谱是一项具有挑战性的任务。它通常需要识别关键术语…

    21/05/2025
    08310
  • LLM情感聊天机器人-数据获取方法简析

    近期出现一些基于大模型的情感陪伴型对话机器人,主要是结合心理学知识,使用心理咨询数据训练,实现量表测量、情绪安抚、情感陪伴等功能,为老人、青少年等提供心理健康支持。本文选取了两个项目,分别用ChatGLM6B…

    29/08/2023
    02.4K0
  • 大模型算法工程师面试问题汇总

    一、基础理论与数学 二、大模型架构与关键技术 三、训练与优化 四、推理与部署 五、大模型应用与评估 六、前沿与扩展 七、编程与工程 八、系统设计题常见考点 九、行为与行业认知 十、高阶问题 建议准备策略: 可重…

    默认分类 27/05/2025
    08560
  • 【DeepSpeed】3D 并行原理解读

    DeepSpeed 的 3D 并行 是一种高级分布式训练策略,通过结合 数据并行 (Data Parallelism, DP)、模型并行 (Model Parallelism, MP) 和 流水线并行 (Pipeline Parallelism, PP),在多 GPU 和多节点环境中高效训练超大…

    人工智能 21/05/2025
    09800