• 下载安装包
• 打开浏览器访问:https://github.com/UB-Mannheim/tesseract/wiki
• 点击 tesseract-ocr-w64-setup-5.3.0..exe 下载(64位系统)
• 运行安装
• 双击下载的安装包 •
在 "Select Additional Language Data" 界面:
• 勾选 Chinese (Simplified)
• 勾选 English
• 其他选项保持默认,点击 "Next" 直到完成
• 配置环境变量
• 按 Win + R 输入 sysdm.cpl 回车
• 切换到 "高级" 选项卡 → 点击 "环境变量"
• 在 "系统变量" 区域找到 Path → 点击 "编辑"
• 点击 "新建" → 输入:
C:Program FilesTesseract-OCR(按照实际路径修改)
• 点击 "确定" 保存所有窗口
验证安装
• 按 Win + R 输入 cmd 回车
• 在命令行输入:
·确认输出中包含 chi_sim 和 eng
• 打开 PyCharm
• 启动 PyCharm
• 顶部菜单:File → New Project
• 位置(Location):G:PythonProjectspark_local_rag(建议修改为你自己的路径)
• Python 解释器:选择已安装的 Python 3.10
• 勾选 ✔️ Create a virtual environment
• 虚拟环境名称:spark_env • 点击 "Create"
• 激活虚拟环境
• 在 PyCharm 底部找到 Terminal 标签页(或按 Alt + F12)
• 输入命令验证:
确认输出路径包含 spark_env(例如:G:PythonProjectspark_local_ragspark_envScriptspip.exe)
在 Terminal 中逐行执行(复制粘贴每行后按回车):
在 PyCharm 左侧 Project 面板中:
• 右键点击项目根目录 → New → Directory
• 名称:knowledge_base(存放知识文件)
• 右键点击项目根目录 → New → Python File
创建以下 4 个文件:
• xinghuo_llm.py
• document_loader.py
• rag_pipeline.py
• main.py
文件 1:(讯飞星火集成)
- 在 PyCharm 中打开
- 复制以下完整代码到文件中:
• 打开 document_loader.py
• 复制以下完整代码:
文件 3:(RAG核心逻辑)
- 打开
- 复制以下完整代码:
文件 4:(图形界面)
- 打开
- 复制以下完整代码:
项目结构
步骤 1:准备测试文件
- 在项目目录中找到 文件夹
- 放入以下测试文件(可自行创建):
- (内容如下):
姓名 部门 工龄 张三 技术部 3年 李四 市场部 5年
• 在 PyCharm 中右键点击 main.py
• 选择 Run ‘main’
• 等待控制台出现:
Running on local URL: http://127.0.0.1:7860
步骤 3:使用图形界面
- 自动打开浏览器(或手动访问 http://127.0.0.1:7860)
- 切换到 "上传文件" 标签页 :
- 点击 "选择文件" 按钮
- 选择 和
- 点击 "上传文件" → 显示上传成功
- 点击 "重建知识库" → 等待 1-2 分钟(首次较慢)
- 切换到 "问答" 标签页 :
- 输入问题:
- 点击 "获取答案"
- 预期结果:
- 回答区域:
- 参考来源:
不过经本人亲测,回答的结果五花八门,距离理想目标还差太远,不过权当是练手了,了解以下过程。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/225413.html