一行命令,让你的 Code Agent 会读PDF

一行命令,让你的 Code Agent 会读PDFClaude Code Cursor Kimi Code Codex Cline 现在大家写代码越来越依赖 Code Agent 但大模型有一个短板 读不了 PDF 你丢给它一个 PDF 文件路径 它只会告诉你 这是个二进制文件 我读不了 论文 技术文档 产品手册 扫描合同 全都打不开 解决方案只需要一行命令 npx skills add

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



Claude Code、Cursor、Kimi Code、Codex、Cline——现在大家写代码越来越依赖 Code Agent。但大模型有一个短板:读不了 PDF

你丢给它一个 PDF 文件路径,它只会告诉你"这是个二进制文件,我读不了"。论文、技术文档、产品手册、扫描合同——全都打不开。

解决方案只需要一行命令:

npx skills add tanis90/pdf-converter-mineru

装完之后,你的 Code Agent 就能直接读取、解析、总结任何 PDF 文件,包括扫描件。

npx skills add 是 OpenClaw 的 Skill 安装命令。OpenClaw 是 Code Agent 的技能市场——类似 VS Code 的扩展商店,但面向的是 AI 编程助手。

这行命令会拉取一个叫 pdf-converter-mineru 的 Skill,装到你本地的 skills 目录下。装好之后,你的 Code Agent 就获得了一个新能力:调用 MinerU Open API 把 PDF 转成 Markdown,然后自己阅读和理解内容。

整个过程对你来说是透明的。你不需要手动调用任何命令,也不需要配置 MCP server——直接对你的 Code Agent 说"帮我读这个 PDF"就行。

这个 Skill 基于 OpenClaw 的开放标准,一次安装,跨工具通用:

| Code Agent | 支持情况 |

|:—|:—|

| Claude Code | 原生支持 |

| Cursor | 支持 |

| Cline | 支持 |

| Augment | 支持 |

| Kimi Code | 支持 |

| CodeBuddy | 支持 |

| Warp | 支持 |

不管你日常用哪个 Code Agent,装一次就行。

装完 Skill 之后,你可以直接这样对你的 Code Agent 说:

读论文:

> 帮我读一下 ./papers/attention-is-all-you-need.pdf,总结核心贡献

提取表格:

> 把 quarterly-report.pdf 里的财务数据表格提取出来

扫描件识别:

> 这份扫描的合同 contract-scan.pdf,帮我找到付款条款

批量处理:

> 把 ./docs/ 下所有 PDF 转成 Markdown

Code Agent 会自动判断用哪种模式:

  • 小文件、快速阅读 → flash-extract(免登录,秒出结果)
  • 大文件、需要保留表格和公式 → extract(高精度模式)

你不需要记任何命令参数。

给 Code Agent 加文档能力,很多人第一反应是"装个 MCP server"。比如跑一个本地的 document parsing 服务,配置 JSON,再写好 tool 的 schema。

能用,但太重了。

Skill 的优势是:

MCP server 更适合需要长期运行、有复杂状态管理的场景。而"读一份 PDF"这种无状态的能力,用 Skill 是更轻量的选择。

底层用的是 MinerU,上海 AI Lab 开源的文档解析引擎,GitHub 56000+ Stars,OmniDocBench 评测综合排名第一。

MinerU 不是简单的文本提取工具。它是一个完整的 document AI 引擎,核心能力包括:

如果你在做 RAG pipeline,这意味着你可以直接在 Code Agent 里完成"PDF → 结构化 Markdown → 向量化"的前两步,不用额外写 PDF 解析代码。

如果你在选 best pdf parser for RAG,MinerU 在表格还原和公式识别上的精度,是大多数 Python PDF parser 做不到的。

场景一:读技术文档写代码

你在用一个 API,文档只有 PDF 版本。以前你得自己打开 PDF,翻到对应章节,再复制粘贴到对话里。现在:

> 读一下 api-reference.pdf,找到认证相关的部分,然后帮我写一个 Python 的认证 client

Code Agent 会自己解析 PDF,找到 auth 章节,理解参数和流程,然后直接写代码。

场景二:论文调研

你要调研某个方向的 5 篇论文:

> 把 ./papers/ 下面 5 篇 PDF 都读一遍,给我一个对比表格,列出每篇的方法、数据集、主要结果

场景三:处理扫描文档

法务给了一堆扫描的合同 PDF,你需要提取关键条款:

> 读 contract-2024.pdf,这是扫描件,帮我提取合同金额、付款期限、违约条款

MinerU 的 OCR 会先把扫描件转成文字,Code Agent 再理解内容并提取你要的信息。

场景四:文档格式转换

> 把 report.pdf 转成 Word 发给我

> 把 paper.pdf 转成 Markdown 存到 ./output/

> 把 slides.pptx 转成 Markdown

支持 PDF、图片、DOCX、PPTX、Excel 等格式的输入。

真的只有一行:

npx skills add tanis90/pdf-converter-mineru

装完之后,如果你本地还没有 mineru-open-api CLI,Code Agent 会自动检测并引导你安装——不需要你自己去查文档。flash-extract 模式免登录可以直接用;如果需要高精度模式(大文件、导出 Word、批量处理),Code Agent 也会提示你做认证。

文件大小有限制吗?

flash-extract 模式限制 10 MB / 20 页。extract 模式支持 200 MB / 600 页,覆盖绝大多数文档。

支持中文文档吗?

默认就支持中英混排。MinerU 的 OCR 覆盖 80+ 种语言,中日韩、阿拉伯语、泰语等都没问题。

和直接用 MinerU CLI 有什么区别?

直接用 CLI 你需要自己敲命令、管理输出文件、再把结果贴给 AI。装了 Skill 之后,Code Agent 自己完成整个流程——你只需要用自然语言描述你想做什么。

和 MCP server 方案怎么选?

如果你已经有在跑的 MCP server 生态,可以继续用。如果你只是想让 Code Agent 能读 PDF,Skill 是更轻量的方案——一行命令搞定,不需要额外的进程和配置。

让 Code Agent 获得文档阅读能力,不需要配 MCP server,不需要写代码,一行命令:

npx skills add tanis90/pdf-converter-mineru

装完之后,PDF、扫描件、Word、PPT、图片——直接丢给你的 Code Agent,让它自己读。

无论你用的是 Claude Code、Cursor、Kimi Code 还是 Cline,同一个 Skill,同一行命令。

小讯
上一篇 2026-04-12 23:06
下一篇 2026-04-12 23:04

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/252138.html