GLM-OCR新手入门全攻略：从环境搭建到Web界面使用，一篇搞定

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

想象一下，你手头有一堆纸质文档、表格、甚至包含复杂公式的报告，需要把它们快速、准确地转换成电子版。传统方法要么手动录入，效率低下还容易出错；要么用一些在线OCR工具，但数据安全又让你提心吊胆。

这就是GLM-OCR能帮到你的地方。它是一个专门为理解复杂文档而生的多模态OCR模型，简单说，就是一个能“看懂”图片里文字的智能工具。它最大的魅力在于，你可以把它部署在自己的电脑或服务器上，数据完全不出内网，安全又放心。而且，它不仅能识别普通文字，还能搞定表格和数学公式，一个工具解决多种需求。

这篇文章，我就带你从零开始，一步步把GLM-OCR用起来。无论你是技术小白还是有一定经验的开发者，都能跟着操作，快速上手。

在动手安装之前，我们先花几分钟了解一下基本情况，这能帮你少走很多弯路。

2.1 你的电脑够用吗？

GLM-OCR对硬件的要求比较友好，但为了获得更好的体验，建议满足以下条件：

操作系统：Linux系统是**选择，比如Ubuntu或者CentOS。如果你用Windows，可能需要借助WSL（Windows Subsystem for Linux）或者虚拟机。
Python版本：必须是Python 3.10.19。版本不对可能会导致各种奇怪的错误。
内存：至少要有8GB的内存。如果只是偶尔用用，4GB也能勉强跑起来。
硬盘空间：准备至少10GB的可用空间，用来放模型和运行环境。
显卡（GPU）：这是可选项，但强烈推荐。有显卡（比如NVIDIA的，显存4GB或以上）的话，识别速度会快很多。没有显卡用CPU也能运行，就是会慢一些。

2.2 项目里有什么？

当你拿到GLM-OCR的项目包，里面主要包含这些核心文件：

serve_gradio.py：这是启动Web服务的核心脚本。
start_vllm.sh：一个帮你一键启动所有服务的脚本，非常方便。
USAGE.md：更详细的使用说明文档。
logs/ 目录：程序运行的所有日志都会放在这里，出问题了可以来这里找原因。

模型文件（大约2.5GB）通常已经预先下载好放在 /root/ai-models/ZhipuAI/GLM-OCR/ 目录下了，所以你一般不需要再费时下载。

好了，理论知识准备完毕，我们开始动手。整个过程比你想的要简单。

3.1 启动服务

打开你的终端（命令行窗口），输入下面两行命令：

# 首先，进入GLM-OCR所在的文件夹 cd /root/GLM-OCR # 然后，运行启动脚本 ./start_vllm.sh

就这么简单。运行 start_vllm.sh 这个脚本后，它会自动帮你做几件事：激活正确的Python环境、加载模型、启动Web服务。

第一次运行需要耐心等1-2分钟，因为程序要把那个2.5GB的模型加载到内存里。你会看到终端上滚动很多信息，这是正常现象。当你看到类似“Running on local URL: http://0.0.0.0:7860”这样的提示时，就说明服务启动成功了！

3.2 怎么确认启动成功了？

服务启动后，怎么知道它真的在正常工作呢？有两个小方法可以验证：

检查端口：在终端新开一个窗口，输入 netstat -tlnp | grep 7860。如果看到7860端口正在被监听，那就对了。
网页访问：打开你的浏览器，在地址栏输入 http://你的服务器IP地址:7860。比如你的服务器IP是192.168.1.100，那就输入 http://192.168.1.100:7860。如果能打开一个网页界面，恭喜你，部署成功！

服务启动后，最直观的使用方式就是通过浏览器访问它的Web界面。这个界面设计得很简洁，我们来看看怎么用。

4.1 认识操作界面

打开网页后，你会看到一个主要分为三个区域的操作面板：

图片上传区：一个大方框，你可以把图片直接拖进去，或者点击“上传”按钮选择文件。支持PNG、JPG、WEBP这些常见图片格式。
任务和提示词区：这里有一个输入框，你需要根据想做的任务，输入对应的“魔法口令”（专业点叫提示词）。
执行与结果区：有一个“开始识别”的按钮，点它就开始工作。下方的大文本框会实时显示识别出来的结果。

4.2 四步完成一次识别

无论识别什么，流程都是一样的，就像下面这张图展示的四个步骤：

GPT plus 代充 只需 145flowchart TD A[第一步：上传图片] --> B[第二步：输入提示词] B --> C[第三步：点击开始识别] C --> D[第四步：查看并复制结果]

第一步：上传图片。把你手机拍的文档照片、扫描的PDF转成的图片，直接拖到网页的上传区域就行。

第二步：输入正确的“口令”。这是关键一步，你告诉模型要做什么，它才会给你想要的结果。主要就三个口令：

你想识别的类型需要输入的口令（提示词）适合的场景 普通文字 Text Recognition: 书籍、海报、通知、手写笔记等。表格 Table Recognition: Excel截图、财务报表、数据统计表等。 数学公式 Formula Recognition: 论文里的公式、试卷上的数学题、化学方程式等。

第三步：点击“开始识别”。点击按钮后，稍等几秒到十几秒（取决于图片复杂度和你的电脑速度）。

第四步：查看并复制结果。识别出的文字、表格或公式会清晰地显示在下面的文本框里。你可以直接全选复制，粘贴到Word、Excel或者任何你需要的地方。

4.3 实战案例：识别一张发票

我们来模拟一个真实场景：你有一张电子发票的截图 invoice.jpg，想把它里面的表格信息提取出来。

打开Web界面 http://localhost:7860。
点击上传，选择 invoice.jpg。
在提示词框里输入：Table Recognition: （因为发票主要是一个表格结构）。
点击“开始识别”。
等待片刻，下方文本框中就会出现整理好的表格文本，通常会用“|”符号分隔不同单元格，你可以轻松地把它复制到Excel中。

如果你是一名开发者，想把OCR功能集成到自己的程序里，或者想批量处理几百张图片，那么通过API调用就是**选择。GLM-OCR提供了基于Gradio Client的简单API。

5.1 基础调用：识别一张图片

首先，你需要安装一个Python库：gradio_client。在终端里运行：

pip install gradio_client

然后，可以写一个简单的Python脚本：

GPT plus 代充 只需 145from gradio_client import Client # 第一步：连接到我们刚刚启动的GLM-OCR服务 client = Client("http://localhost:7860") # 第二步：告诉它要识别哪张图，做什么任务 result = client.predict( image_path="/home/user/images/receipt.png", # 替换成你的图片真实路径 prompt="Text Recognition:", # 任务类型：文本识别 api_name="/predict" # 固定这么写就行 ) # 第三步：打印结果 print("识别结果如下：") print(result)

运行这个脚本，它就会把图片 receipt.png 中的文字识别出来并打印在屏幕上。

5.2 高级技巧：批量处理整个文件夹的图片

对于大量图片，手动一张张处理太累了。我们可以写个循环，让程序自动处理一个文件夹里所有的图片。

import os from gradio_client import Client client = Client("http://localhost:7860") image_folder = "/path/to/your/images/" # 你的图片文件夹路径 # 获取文件夹里所有图片文件 for filename in os.listdir(image_folder): if filename.lower().endswith(('.png', '.jpg', '.jpeg', '.webp')): filepath = os.path.join(image_folder, filename) # 简单判断任务类型（你可以根据需求写更复杂的逻辑） if 'table' in filename.lower(): task_prompt = "Table Recognition:" output_ext = '.csv' elif 'formula' in filename.lower(): task_prompt = "Formula Recognition:" output_ext = '.txt' else: task_prompt = "Text Recognition:" output_ext = '.txt' print(f"正在处理: {filename}") try: # 调用API进行识别 text_result = client.predict( image_path=filepath, prompt=task_prompt, api_name="/predict" ) # 把结果保存到文件 output_filename = os.path.splitext(filename)[0] + output_ext with open(os.path.join(image_folder, output_filename), 'w', encoding='utf-8') as f: f.write(text_result) print(f" 处理完成，结果已保存为: {output_filename}") except Exception as e: print(f" 处理失败: {filename}, 错误: {e}")

这个脚本会自动识别文件夹里的每张图片，并根据文件名猜测任务类型，最后把识别出的文本、表格或公式分别保存为 .txt 或 .csv 文件。

即使是再简单的部署，偶尔也可能遇到点小麻烦。别担心，大部分问题都有现成的解决办法。

6.1 问题一：端口7860被占用了

启动时如果报错说端口7860已经被使用，说明可能有其他程序占用了它。

解决方法：

GPT plus 代充 只需 145# 1. 找出是哪个“家伙”占用了7860端口 lsof -i :7860 # 这个命令会列出进程ID(PID)和进程名 # 2. 停止那个进程（请确认它确实是不需要的进程） kill 
  
    
    
      # 将 
     
       替换为上一步查到的数字

然后重新运行 ./start_vllm.sh 即可。

6.2 问题二：显卡显存不够了

如果你用的是GPU，处理大图或连续处理很多图片时，可能会遇到显存不足的错误。

解决方法：

# 1. 查看当前GPU和显存使用情况 nvidia-smi # 2. 如果发现是之前的GLM-OCR进程没关干净，可以强制停止 pkill -f serve_gradio.py # 3. 在Python代码中，处理完一批图片后可以主动清空缓存 import torch torch.cuda.empty_cache()

如果显存实在太小，可以考虑在启动脚本或代码中设置用CPU运行，虽然慢但能保证可用。

6.3 问题三：服务运行异常，想看日志

服务突然不工作了，或者识别结果不对，查看日志是定位问题的第一步。

解决方法：

GPT plus 代充 只需 145# 实时查看最新的日志输出（按Ctrl+C退出） tail -f /root/GLM-OCR/logs/glm_ocr_*.log # 查看日志中是否有错误(ERROR)或警告(WARNING) grep -i "error|warning" /root/GLM-OCR/logs/glm_ocr_*.log

日志文件里记录了服务的所有活动，通常错误信息会直接指明问题所在，比如“模型加载失败”或“图片格式不支持”。

走到这里，你已经成功完成了GLM-OCR从部署到使用的全过程。我们来简单回顾一下关键点：

部署极其简单：核心就是两条命令，cd进入目录，然后运行 ./start_vllm.sh。
使用非常直观：通过浏览器访问 http://IP:7860，上传图片、输入提示词、点击识别，三步拿到结果。
功能相当强大：一个模型同时搞定文字、表格、公式三种识别任务。
集成也很方便：提供了Python API，几行代码就能嵌入到你自己的自动化脚本或应用里。

给你的下一步建议：

先玩起来：别光看，马上找几张包含文字、表格、公式的图片，用Web界面亲自试试三种功能，感受一下它的识别精度。
尝试批量处理：如果你有大量图片需要数字化，用上面第5部分的Python脚本体验一下批量处理的效率。
思考应用场景：结合你的工作或学习，看看哪些重复性的手动录入工作可以交给GLM-OCR。比如，自动整理扫描的合同、提取报表数据、识别试卷上的题目等。

GLM-OCR就像一个放在你自己家里的“数字眼”，安全、高效、多功能。希望这篇指南能帮你打开文档智能处理的大门。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

GLM-OCR新手入门全攻略：从环境搭建到Web界面使用，一篇搞定

2.1 你的电脑够用吗？

2.2 项目里有什么？

3.1 启动服务

3.2 怎么确认启动成功了？

4.1 认识操作界面

4.2 四步完成一次识别

4.3 实战案例：识别一张发票

5.1 基础调用：识别一张图片

5.2 高级技巧：批量处理整个文件夹的图片

6.1 问题一：端口7860被占用了

6.2 问题二：显卡显存不够了

6.3 问题三：服务运行异常，想看日志

相关推荐