2026年保姆级教程：用DeepSeek + RAGFlow 构建你的个人智能知识库

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

当我们尝试用网页版DeepSeek处理敏感文档时，常常面临三大致命痛点：

1.GAR

核心：根据给定的问题，从知识库中检索出合适的参考内容，让大模型据此回答。
应用场景：AI客服、政策查询、AI搜索
原理流程：

2.RAGFlow

RAGFlow 是一款基于 RAG 技术的开源文档问答系统。它支持多种格式文档解析（如 Word、PDF、表格等），并提供精准的文本切片与检索能力。结合深度神经网络模型，RAGFlow 可快速定位并提取关键信息，用于生成高质量答案。其具备可视化知识库管理、支持多用户协作等特性，极大降低了构建知识助手系统的门槛。

3.Embedding model

Embedding（嵌入）模型在 RAG 系统中扮演着至关重要的角色，其核心功能是将文本转换为机器可理解的高维数值向量，同时保留语义层面的关联信息。正是通过这一过程，非结构化的自然语言文本得以转化为可计算、可检索的结构化形式。

为什么要使用 Embedding 模型？
即使已经使用了 DeepSeek 和 RAGFlow，Embedding 模型仍是不可或缺的一环，主要原因包括：

语义理解与检索基础：Embedding 模型能够捕捉文本的语义信息，。这使得系统能够，极大提升了问答的准确性和相关性。
流程中的关键作用：

知识库处理：在上传本地文档（如 PDF、Word 等）后，Embedding 模型会对文本进行解析和切片，并为每一段文本生成对应的向量表示，存储到向量数据库中。
查询处理：当用户提出问题时，同一个 Embedding 模型会将问题也转换为向量。
语义匹配：系统通过（如使用余弦相似度），快速找出最相关的文本片段，作为生成答案的依据。

Embedding 模型 vs. 聊天模型

Chat 模型（如 DeepSeek）：主要用于对话和文本生成，根据上下文输出连贯、合理的回答。
Embedding 模型：不生成文本，而是将文本转换为向量，承担的核心计算任务。两者各司其职，共同构建起高效可靠的 RAG 系统。

面对大模型的“幻觉问题”（虚构不存在的知识），我们需要两种核心技术：微调 vs RAG

方式原理比喻特点适用场景微调考前复习用领域数据重新训练模型参数固定知识体系 RAG 考试带小抄实时检索外部知识库辅助生成动态个人/企业知识库

本方案通过三阶段实现完全离线的知识库系统：

1. Ollama本地化部署（DeepSeek + Embedding模型）

Ollama平台安装 Ollama官网
关键环境变量配置
模型下载与加载

模型下载成功！
部署验证

2. RAGFlow私有化部署

获取RAGFlow源码 Github
将轻量版镜像设置为完整版RAGFlow镜像
解压源代码 — 进入目录，找到文件
下载安装docker Docker
下载安装WSL 2

在打开的管理员终端中，输入以下命令并回车：

进入RAGFlow源码的目录，在命令提示符窗口（CMD）运行指令：

访问RagFlow：Web界面与功能验证

RAGFlow部署成功！

3. 知识库构建与问答

在这里插入图片描述

1. 下载后点击，安装Docker报错

在这里插入图片描述

原因：为什么Docker无法直接在Windows上运行？
Docker 并不是一个通用的跨平台容器工具，它的核心功能依赖于Linux内核。在 Windows 上运行Docker，本质上是在一个虚拟化的Linux环境中运行容器。因此，直接安装Docker Desktop时，可能会遇到兼容性错误。

解决方案：安装 WSL 2
由于 Docker 需要 Linux 内核，而 Windows 本身不具备，因此我们需要 WSL 2（Windows Subsystem for Linux 2）来提供一个轻量级的 Linux 兼容层。

以管理员身份打开 PowerShell，然后输入以下命令：

命令成功执行后，重启电脑。

再次以管理员身份打开 PowerShell 并运行：

命令成功执行后，重启电脑。

2. pull镜像报错 failed to copy: httpReadSeeker: failed open: … EOF

在这里插入图片描述
原因： Docker 在下载镜像时遇到了，通常是由于网络不稳定或防火墙限制导致的。
解决方案：

右键点击系统托盘中的 Docker 图标 → 选择 “设置”
转到 “Docker Engine” 标签
在 JSON 配置中替换以下内容：

配置项值作用 dns [“8.8.8.8”, “114.114.114.114”] 解决 DNS 解析问题（Google + 国内公共 DNS） registry-mirrors 三个国内镜像加速地址绕过 Cloudflare CDN，加速镜像下载 features.buildkit true 启用新一代构建引擎提升稳定性 mtu 1400 优化 Windows 虚拟网络传输效率 log-driver json-file 日志格式 log-opts {“max-size”:“10m”,“max-file”:“3”} 限制日志大小防止磁盘爆满

备选镜像加速方案：如果上述镜像源不稳定，可替换为：

点击 “Apply & Restart” 保存并重启 Docker

3. RAGFlow 解析文档卡住

问题：RAGFlow 成功启动，但是解析文件的时候，进度不动。
在这里插入图片描述
原因：
解决方案：需要在启动镜像前，在文件中，使用镜像地址：把下面这行注释关闭

4. 对话报错[Errno 111] Connection refused

在这里插入图片描述
原因：由于宿主机内存资源不足，导致 Elasticsearch 等内存密集型服务无法正常启动，进而表现为连接失败。例如，在总计 16GB 内存的系统中，若仅为 Docker 分配 7.5GB 内存，可能无法满足 Elasticsearch 运行的基本需求，引发此类错误。

解决方案：通过调整 Windows 系统中 WSL2 的内存分配配置，可为 Docker 提供更多可用资源，具体步骤如下：

使用快捷键 Win + R 打开“运行”窗口，输入 %UserProfile% 进入用户文件夹。
在该文件夹下创建名为 .wslconfig 的配置文件（若已存在请直接编辑），内容如下：

完全退出 Docker Desktop，并通过任务管理器确保无相关后台进程残留。
打开命令提示符（cmd），执行以下命令关闭 WSL2：

重新启动 Docker Desktop，并尝试重新运行容器中的服务。

完成上述操作后，再次访问服务RAGflow即可正常连接。建议根据实际物理资源情况合理调整内存分配参数，避免过度占用系统资源。

🚀 通过，不仅能拥有一个超强的个人知识管家，还能避免敏感数据上传第三方平台。无论是技术文档、学习笔记还是企业知识库，都能轻松搞定！

📚 参考资料

参考视频：【知识科普】【纯本地化搭建】【不本地也行】DeepSeek + RAGFlow 构建个人知识库_哔哩哔哩_bilibili
RAGFlow解析文件卡住： CSDN
对话报错[Errno 111] Connection refused： CSDN
Windows环境下docker desktop修改最大内存：简书