2026年GLM-OCR批量处理教程：Python脚本实现文件夹图片自动识别与导出

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

你是不是也遇到过这样的烦恼？手头有一大堆图片，里面可能有截图、扫描件或者手机拍的文件，需要把里面的文字提取出来。一张张打开，手动复制粘贴，或者用在线工具一张张上传，效率低不说，还容易出错。

今天，我就来分享一个能彻底解放你双手的自动化方案。用Python写一个脚本，让它帮你盯着一个文件夹，只要有新图片放进去，它就自动调用GLM-OCR接口识别文字，然后把结果整整齐齐地保存成TXT文件。整个过程完全自动化，你只需要把图片丢进去，剩下的就交给脚本。无论是处理几十张还是几百张图片，都能轻松搞定。

这个教程会从零开始，带你一步步搭建这个自动化流水线。即使你Python基础一般，跟着做也能跑起来。我们会用到、这些Python自带的库，以及GLM-OCR的API，代码清晰，逻辑简单。

在开始写代码之前，我们需要先把“舞台”搭好。这包括安装必要的Python库，以及准备好GLM-OCR的访问凭证。

1.1 安装必要的Python库

我们的脚本主要依赖两个外部库：一个用于发送网络请求调用API，另一个用于处理可能遇到的图片格式。打开你的命令行终端（Windows上是CMD或PowerShell，Mac/Linux上是Terminal），输入以下命令来安装：

简单解释一下：

：这是Python里最常用的HTTP库，我们用它与GLM-OCR的API服务器“对话”，发送图片并接收识别结果。
(PIL Fork)：一个强大的图像处理库。虽然GLM-OCR API通常能处理多种格式，但用Pillow可以确保我们读取图片时更稳定，也能在必要时进行简单的格式转换或预处理。

安装过程很快，看到“Successfully installed”就表示搞定了。

1.2 获取GLM-OCR API访问密钥

要调用GLM-OCR服务，你需要一个通行证，也就是API Key。这里我以智谱AI的开放平台为例（其他提供GLM-OCR服务的平台流程类似）：

访问智谱AI开放平台官网并注册/登录。
在控制台界面，找到“API密钥”或类似的管理页面。
创建一个新的应用或直接获取你的API Key，并记下来。通常它是一长串由字母和数字组成的字符串。

重要提示：这个API Key就像你的银行卡密码，千万不要直接写在将要分享或上传到公开地方的代码里。我们稍后会介绍安全的使用方法。

在动手写每一行代码之前，我们先理清整个脚本要干什么，脑子里有个流程图会顺畅很多。

脚本的核心工作流程其实就是一个无限循环的“监控-处理”流水线：

监控文件夹：脚本持续检查我们指定的那个文件夹（比如叫）。
发现新图片：找出这个文件夹里所有支持的图片文件（如.jpg, .png），并且是之前没有处理过的。
调用OCR接口：把新发现的图片文件读取出来，通过HTTP请求发送给GLM-OCR的识别接口。
保存识别结果：收到API返回的文本后，按照图片原来的名字，生成一个同名的文件，把文字保存进去。
记录与等待：标记这张图片已经处理过了，避免下次重复处理。然后稍事休息，继续下一轮监控。

基于这个思路，我们可以先搭建一个简单的脚本框架，把主要的功能函数定义出来。

GPT plus 代充 只需 145

这个框架把大的任务拆解成了几个小函数，每个函数负责一个明确的任务。接下来，我们就来逐一实现这些函数。

现在，我们来给刚才的骨架填上血肉，让每个函数都活起来。

3.1 智能识别与筛选图片文件

首先，我们需要教会脚本如何正确地找出文件夹里的图片。我们使用库，它是现代Python中处理文件路径的推荐方式，比老的更直观。

这个函数会返回一个列表，里面包含了下所有常见格式的图片文件路径。对象让你可以用获取文件名，用获取后缀，非常方便。

3.2 记录处理状态，避免重复劳动

脚本需要记住哪些图片已经处理过了，不然每次循环都会把老图片再识别一遍。一个简单有效的方法是用一个文本文件来当“记事本”。

GPT plus 代充 只需 145

函数去“记事本”里查找文件名。函数则把新的文件名追加到“记事本”末尾。这里我们使用文件名作为唯一标识，在简单场景下够用了。如果你担心不同文件夹有同名文件，可以改为记录文件的绝对路径。

3.3 调用GLM-OCR API并解析结果

这是整个脚本最核心的部分——与OCR服务通信。我们需要按照API文档的要求来构造请求。

请注意：函数中的构造和结果解析部分（第3步和第6步）强烈依赖于你所使用的具体GLM-OCR API的文档。上面的代码只是一个示例模板。在你实际编写时，一定要去查阅对应平台的官方API文档，确认正确的请求格式和响应结构，并相应地修改代码。这是能否成功拿到识别文字的关键。

3.4 妥善保存识别结果

拿到文本后，我们要把它保存下来。为了保持条理，我们让TXT文件的名字和图片文件的名字对应起来。

GPT plus 代充 只需 145

这里我们同样使用来创建不存在的父目录（），并用UTF-8编码保存文件，确保中文等字符不会乱码。

各个零件都准备好了，现在我们把它们组装起来，并在函数里实现那个核心的监控循环。

脚本跑起来了！它会每隔5秒检查一次文件夹，自动处理新图片。你可以把想识别的图片拖进这个文件夹，然后泡杯茶，回来就能看到旁边生成的TXT文件了。

直接把自己的API Key写在代码里是非常不安全的，尤其是如果你打算和别人分享代码。这里教你两个更安全的方法。

方法一：使用环境变量（推荐） 这是最常用也最安全的方式之一。在运行脚本前，先在终端里设置环境变量。

GPT plus 代充 只需 145

然后在Python脚本的开头这样获取它：

方法二：使用配置文件 创建一个单独的配置文件（如或），把敏感信息放里面，并在文件中忽略它，避免提交到代码仓库。

GPT plus 代充 只需 145

几个提升体验的小技巧：

调整监控频率：里的是等待秒数。如果图片来得快，可以调小（如2）；如果不想让脚本太频繁检查，可以调大（如10）。
处理子文件夹：当前的函数只监控一级目录。如果你想递归监控所有子文件夹，可以将改为。
增加图片预处理：如果某些图片识别率低，可以在调用API前用进行预处理，比如调整大小、转为灰度图、增加对比度等。
处理更多格式：在列表里添加更多后缀名，比如（注意OCR通常处理静态帧）、等。

好了，一个完整的、自动化的图片文字识别小工具就打造完成了。整个过程我们一步步走过来，从环境准备、理清思路，到逐个实现文件监控、状态记录、API调用和结果保存，最后把它们串成一个7x24小时不间断工作的流水线。

用下来感觉，这个脚本最省心的地方就是“自动化”。你不需要再手动操作任何界面，只需要把图片往那个文件夹里一扔，它就在后台默默帮你把活干了。对于需要定期处理大量图片文字的朋友，比如整理会议纪要截图、归档扫描文档，效率提升是非常明显的。

当然，这只是一个起点。你可以根据自己的需求去扩展它，比如增加一个简单的图形界面来设置监控文件夹，或者把识别结果自动整理到Excel表格里，甚至对接上邮件系统，处理完自动发通知。希望这个教程能帮你打开思路，把重复的工作交给代码，让自己有更多时间去做更有创意的事情。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。