2026年3步教会你用Doris+DeepSeek搭建ChatBI系统（保姆级教程）

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

小华是市场部的业务员，对SQL一窍不通。以前要分析数据，他只能提需求给数据团队，然后苦等几天。

现在，他只需对着ChatBI说：”“。

于是，系统立刻启动了：

3步教会你用Doris+DeepSeek搭建ChatBI系统（保姆级教程）_数据库

1️⃣ 知识召回：RAG（检索增强⽣成）技术迅速从知识库中匹配相关信息，了解”渠道”、”获客成本”、”转化率”在公司数据体系中的定义和存储位置。

2️⃣ 信息提取：系统自动识别出查询意图是要分析”各渠道获客成本”和”转化率”的相关性，并确定时间范围为”上个月”。

3️⃣ SQL转换：DeepSeek大模型将自然语言转换为标准SQL，安全校验后，查询指令精准送达Doris数据库。

4️⃣ 智能可视化：系统判断这是典型的相关性分析场景，自动选择散点图展示，并在右侧添加了pearson相关系数，让小张一目了然。

整个过程不到一分钟，小张惊讶地看着面前生成的数据图表，不禁感叹：”这简直是啊！”

今天，我们就一起来实现一个简易版的，快速体验其中的纷纷扰扰 ⬇️

传统数据分析的困扰着无数企业：。数据仓库建好了，业务人员却不会用；报表做出来了，洞察难以直观表达；分析结果有了，决策者还要等半天!

Doris+DeepSeek V3组合拳的出现，正如一把利剑，直指这些痛点。

你还记得那些等待Hive查询结果喝完一整杯咖啡的日子？而Doris让数据查询速度提升了10倍以上，同时保持了优秀的扩展性，支持。其独特的，让复杂查询也能在亚秒级完成，这正是。即使面对千亿级数据，分析依然如丝般顺滑。

那么，这会就会有小伙伴提出疑问，

3步教会你用Doris+DeepSeek搭建ChatBI系统（保姆级教程）_SQL_02

这套组合不仅技术先进，更是极致性价比的体现，并且都以开源著称：

3步教会你用Doris+DeepSeek搭建ChatBI系统（保姆级教程）_SQL_03

方案主要分为4个模块：

1. 用户自然语言交互层

你说人话，系统能听懂。

就好比和真人聊天一样，可以直接用大白话提问。比如：“”，系统不需要你写代码或记指令，你说人话它就能接住。

2. DeepSeek V3 模型处理层

系统的。这个大脑主要干5件事：

1️⃣ 知识召回：先翻自己的知识库，比如“销售额”对应数据库里的哪个字段

2️⃣ 理解意图：拆解你的问题，知道你想查“最高”而不是“平均”

3️⃣ Text2SQL：把问题翻译成数据库能懂的查询语句（比如生成）

4️⃣ 动态Prompt组装：灵活调整问题的，好比，把零散的信息（）打包成清晰的指令，让大模型干活不懵圈

5️⃣ 安全把关：检查生成的SQL会不会拖垮数据库，或者有没有危险操作，像保安一样守门

3. Apache Doris数据层

超能的大仓库：

1️⃣ 专门存海量数据（比如亿条销售记录），支持。

2️⃣ 类似Excel但更强大，几十人同时问“不同区域销量”也能。

3️⃣ 适合，老板临时要报表也不卡壳。

4. 智能可视化BI层

数据变成：

1️⃣ 把冷冰冰的数据变成柱状图、折线图，一眼看懂趋势

2️⃣ 自动标注重点，比如高亮显示异常下跌的月份

3️⃣ 像智能助手一样告诉你：“华南区Q1增长300%，建议增加库存”

确定好方案后，即刻开撕代码。

环境准备

1. Doris环境

如果已经有Doris集群，直接用即可。

若当前还没Doris环境，可以参考Doris官方文档，基于Docker或本地化快速部署搭建一套Doris集群 🔗 ：

2. DeepSeeek环境

由于DeepSeek V3本地Ollama部署只有，故而选择了用API形式。

本文选用的是火山引擎平台（）：

3步教会你用Doris+DeepSeek搭建ChatBI系统（保姆级教程）_SQL_04

3. Python环境

本次使用的Python版本是，相关的包都可以畅通无阻的install（建议用conda管理py环境）：

4. Ollama环境

本次用到的embeddings model依旧是。

需要本地安装Ollama，然后进行启动并安装对应包即可：

代码实现

经过一臻和老崔七七四十九秒的编写调试，完整代码如下：

代码解析

代码经过精简，很多block没有进行过多地细化深入。主要是为了让大家能够快速熟悉Doris+DeepSeek V3体验ChatBI的完整流程，后续可以结合自己需求，按模块进行调整应用。

代码主流程如下：

3步教会你用Doris+DeepSeek搭建ChatBI系统（保姆级教程）_数据库_05

主要分为和。

1. Application Initialization

主要行为：

1️⃣ 确认向量化知识库路径是否正常

2️⃣ 作用好比是一个智能的文档整理员，它的工作流程可以简单理解为：收集文档 -> 拆分内容 -> 转换格式() -> 建立索引（基于本地向量化数据库）。

整个过程相当于：。这样后续问答时，LLM就能像图书管理员一样快速找到相关知识了！

2. User Interaction Flow

好比BI端，负责：搭建对话窗口 -> 设置应答规则 -> -> -> 智能问答，其中核心：

1️⃣ 记忆管理，主要是记录思考过程并捕捉最终答案。

2️⃣ 组装AI助手，主要是基于LLM Agent机制准备工具包和，再把工具包和LLM组装成具备决策能力的AI助手。

相当于给LLM装了个”工具选择器”：遇到问题时，先自动判断该查知识库还是查数据库，再调用相应工具获取信息，最后整理成人类能理解的回答。

其它说明

1. 测试文件

主要导入了1个md文件()：

🔗 Doris版本最新发布文档：

2. 提示词

构建agent chain时，prompt提示词这块值得一提：

大家结合应用时可以个性化调整 ⬆️

3. ChatBI应用场景

ChatBI的企业级应用，通常可以归纳为三个递进式的智能场景：

1️⃣ 智能问答查数据：好比给大家配了个”数据助手”，用户用大白话提问（比如”上个月哪个区域卖得最好？”），系统通过的语义理解能力，自动关联数据库中的区域、销售额等字段，秒级生成精准查询结果。这层能力覆盖了80%的日常数据需求，让不会写代码的业务人员也能自助查数。

2️⃣ 对话式做报表：在查数基础上，系统会像设计师一样主动给建议——知识图谱能识别”销售额趋势”需要折线图，”区域对比”适合柱状图。用户只需在自动生成的图表草稿上微调颜色、排序，就能快速组装出。这种”“的模式，比传统拖拽式BI效率提升5倍以上。

3️⃣ 深度分析找规律：当用户追问”为什么某区域销量突降？”，知识图谱会联动供应链、市场活动等多维数据，自动生成归因报告。更高级的场景还能预测下季度业绩、识别异常波动风险。这相当于给企业配备了24小时在线的”数据分析师”，用。

本文Demo只实现了1️⃣ 智能问答查数据 中的部分模块。真正去企业级落地，还需要结合，类比为一种的映射机制，但两者的对应关系并非简单的库表结构，而是通过语义网络实现的深层知识关联。简而言之，需要实现：

实体映射：自然语言中的名词 → 知识图谱的节点（类似数据库主表）⬇️

关系映射：自然语言中的谓语 → 知识图谱的边（类似关系型数据库外键）⬇️

语境映射：语言隐含逻辑 → 图谱的子图结构（类似数据库视图）⬇️

知识更新：语言的新表述 → 图谱的Schema扩展（类似DDL语句）⬇️

验证机制：语言生成结果 → 图谱的约束检查（类似数据库事务）✅

代码编写调试完后，来对比下结果。

首先，由于借助了进行UI化，所以在启动程序的时候，需要在终端输入如下命令进行启动：

执行对应的命令后，程序会在电脑默认浏览器中打开一个BI交互端：

3步教会你用Doris+DeepSeek搭建ChatBI系统（保姆级教程）_数据库_06

随后，我们先基于测试的本地文件进行一个简单测试：

3步教会你用Doris+DeepSeek搭建ChatBI系统（保姆级教程）_SQL_07

结果正确，和Doris官方文档介绍的一样。

接着，我们来试试简易版的场景：

3步教会你用Doris+DeepSeek搭建ChatBI系统（保姆级教程）_数据_08

结果正确，和Doris的库表信息一致！

3步教会你用Doris+DeepSeek搭建ChatBI系统（保姆级教程）_数据库_09

，数据分析的大门向所有人敞开。从此，数据不再是技术专家的专属领地，而是每位成员的智能助手。

曾经，我们苦苦等待报表生成，辛苦解读数据含义；如今，我们只需一句话，数据便会主动。

下次当你还在为复杂SQL挠头时，不妨想想：也许是时候让AI成为你的数据分析搭档了。毕竟，科技的意义，？

至此，体验完成。后续将会结合，发布Doris ChatBI企业应用级的完整版，敬请期待！