2026年GLM-OCR批量处理教程:Python脚本实现文件夹图片自动识别与导出

GLM-OCR批量处理教程:Python脚本实现文件夹图片自动识别与导出你是不是也遇到过这样的烦恼 手头有一大堆图片 里面可能有截图 扫描件或者手机拍的文件 需要把里面的文字提取出来 一张张打开 手动复制粘贴 或者用在线工具一张张上传 效率低不说 还容易出错 今天 我就来分享一个能彻底解放你双手的自动化方案 用 Python 写一个脚本

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



你是不是也遇到过这样的烦恼?手头有一大堆图片,里面可能有截图、扫描件或者手机拍的文件,需要把里面的文字提取出来。一张张打开,手动复制粘贴,或者用在线工具一张张上传,效率低不说,还容易出错。

今天,我就来分享一个能彻底解放你双手的自动化方案。用Python写一个脚本,让它帮你盯着一个文件夹,只要有新图片放进去,它就自动调用GLM-OCR接口识别文字,然后把结果整整齐齐地保存成TXT文件。整个过程完全自动化,你只需要把图片丢进去,剩下的就交给脚本。无论是处理几十张还是几百张图片,都能轻松搞定。

这个教程会从零开始,带你一步步搭建这个自动化流水线。即使你Python基础一般,跟着做也能跑起来。我们会用到、这些Python自带的库,以及GLM-OCR的API,代码清晰,逻辑简单。

在开始写代码之前,我们需要先把“舞台”搭好。这包括安装必要的Python库,以及准备好GLM-OCR的访问凭证。

1.1 安装必要的Python库

我们的脚本主要依赖两个外部库:一个用于发送网络请求调用API,另一个用于处理可能遇到的图片格式。打开你的命令行终端(Windows上是CMD或PowerShell,Mac/Linux上是Terminal),输入以下命令来安装:

 
  

简单解释一下:

  • :这是Python里最常用的HTTP库,我们用它与GLM-OCR的API服务器“对话”,发送图片并接收识别结果。
  • (PIL Fork):一个强大的图像处理库。虽然GLM-OCR API通常能处理多种格式,但用Pillow可以确保我们读取图片时更稳定,也能在必要时进行简单的格式转换或预处理。

安装过程很快,看到“Successfully installed”就表示搞定了。

1.2 获取GLM-OCR API访问密钥

要调用GLM-OCR服务,你需要一个通行证,也就是API Key。这里我以智谱AI的开放平台为例(其他提供GLM-OCR服务的平台流程类似):

  1. 访问智谱AI开放平台官网并注册/登录。
  2. 在控制台界面,找到“API密钥”或类似的管理页面。
  3. 创建一个新的应用或直接获取你的API Key,并记下来。通常它是一长串由字母和数字组成的字符串。

重要提示:这个API Key就像你的银行卡密码,千万不要直接写在将要分享或上传到公开地方的代码里。我们稍后会介绍安全的使用方法。

在动手写每一行代码之前,我们先理清整个脚本要干什么,脑子里有个流程图会顺畅很多。

脚本的核心工作流程其实就是一个无限循环的“监控-处理”流水线:

  1. 监控文件夹:脚本持续检查我们指定的那个文件夹(比如叫)。
  2. 发现新图片:找出这个文件夹里所有支持的图片文件(如.jpg, .png),并且是之前没有处理过的。
  3. 调用OCR接口:把新发现的图片文件读取出来,通过HTTP请求发送给GLM-OCR的识别接口。
  4. 保存识别结果:收到API返回的文本后,按照图片原来的名字,生成一个同名的文件,把文字保存进去。
  5. 记录与等待:标记这张图片已经处理过了,避免下次重复处理。然后稍事休息,继续下一轮监控。

基于这个思路,我们可以先搭建一个简单的脚本框架,把主要的功能函数定义出来。

GPT plus 代充 只需 145

这个框架把大的任务拆解成了几个小函数,每个函数负责一个明确的任务。接下来,我们就来逐一实现这些函数。

现在,我们来给刚才的骨架填上血肉,让每个函数都活起来。

3.1 智能识别与筛选图片文件

首先,我们需要教会脚本如何正确地找出文件夹里的图片。我们使用库,它是现代Python中处理文件路径的推荐方式,比老的更直观。

 
  

这个函数会返回一个列表,里面包含了下所有常见格式的图片文件路径。对象让你可以用获取文件名,用获取后缀,非常方便。

3.2 记录处理状态,避免重复劳动

脚本需要记住哪些图片已经处理过了,不然每次循环都会把老图片再识别一遍。一个简单有效的方法是用一个文本文件来当“记事本”。

GPT plus 代充 只需 145

函数去“记事本”里查找文件名。函数则把新的文件名追加到“记事本”末尾。这里我们使用文件名作为唯一标识,在简单场景下够用了。如果你担心不同文件夹有同名文件,可以改为记录文件的绝对路径。

3.3 调用GLM-OCR API并解析结果

这是整个脚本最核心的部分——与OCR服务通信。我们需要按照API文档的要求来构造请求。

 
  

请注意:函数中的构造和结果解析部分(第3步和第6步)强烈依赖于你所使用的具体GLM-OCR API的文档。上面的代码只是一个示例模板。在你实际编写时,一定要去查阅对应平台的官方API文档,确认正确的请求格式和响应结构,并相应地修改代码。这是能否成功拿到识别文字的关键。

3.4 妥善保存识别结果

拿到文本后,我们要把它保存下来。为了保持条理,我们让TXT文件的名字和图片文件的名字对应起来。

GPT plus 代充 只需 145

这里我们同样使用来创建不存在的父目录(),并用UTF-8编码保存文件,确保中文等字符不会乱码。

各个零件都准备好了,现在我们把它们组装起来,并在函数里实现那个核心的监控循环。

 
  

脚本跑起来了!它会每隔5秒检查一次文件夹,自动处理新图片。你可以把想识别的图片拖进这个文件夹,然后泡杯茶,回来就能看到旁边生成的TXT文件了。

直接把自己的API Key写在代码里是非常不安全的,尤其是如果你打算和别人分享代码。这里教你两个更安全的方法。

方法一:使用环境变量(推荐) 这是最常用也最安全的方式之一。在运行脚本前,先在终端里设置环境变量。

GPT plus 代充 只需 145

然后在Python脚本的开头这样获取它:

 
  

方法二:使用配置文件 创建一个单独的配置文件(如或),把敏感信息放里面,并在文件中忽略它,避免提交到代码仓库。

GPT plus 代充 只需 145
 
  

几个提升体验的小技巧:

  • 调整监控频率:里的是等待秒数。如果图片来得快,可以调小(如2);如果不想让脚本太频繁检查,可以调大(如10)。
  • 处理子文件夹:当前的函数只监控一级目录。如果你想递归监控所有子文件夹,可以将改为。
  • 增加图片预处理:如果某些图片识别率低,可以在调用API前用进行预处理,比如调整大小、转为灰度图、增加对比度等。
  • 处理更多格式:在列表里添加更多后缀名,比如(注意OCR通常处理静态帧)、等。

好了,一个完整的、自动化的图片文字识别小工具就打造完成了。整个过程我们一步步走过来,从环境准备、理清思路,到逐个实现文件监控、状态记录、API调用和结果保存,最后把它们串成一个7x24小时不间断工作的流水线。

用下来感觉,这个脚本最省心的地方就是“自动化”。你不需要再手动操作任何界面,只需要把图片往那个文件夹里一扔,它就在后台默默帮你把活干了。对于需要定期处理大量图片文字的朋友,比如整理会议纪要截图、归档扫描文档,效率提升是非常明显的。

当然,这只是一个起点。你可以根据自己的需求去扩展它,比如增加一个简单的图形界面来设置监控文件夹,或者把识别结果自动整理到Excel表格里,甚至对接上邮件系统,处理完自动发通知。希望这个教程能帮你打开思路,把重复的工作交给代码,让自己有更多时间去做更有创意的事情。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

小讯
上一篇 2026-03-21 15:45
下一篇 2026-03-21 15:43

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/239912.html