一行命令，让你的 Code Agent 会读PDF

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

Claude Code、Cursor、Kimi Code、Codex、Cline——现在大家写代码越来越依赖 Code Agent。但大模型有一个短板：读不了 PDF。

你丢给它一个 PDF 文件路径，它只会告诉你"这是个二进制文件，我读不了"。论文、技术文档、产品手册、扫描合同——全都打不开。

解决方案只需要一行命令：

npx skills add tanis90/pdf-converter-mineru

装完之后，你的 Code Agent 就能直接读取、解析、总结任何 PDF 文件，包括扫描件。

npx skills add 是 OpenClaw 的 Skill 安装命令。OpenClaw 是 Code Agent 的技能市场——类似 VS Code 的扩展商店，但面向的是 AI 编程助手。

这行命令会拉取一个叫 pdf-converter-mineru 的 Skill，装到你本地的 skills 目录下。装好之后，你的 Code Agent 就获得了一个新能力：调用 MinerU Open API 把 PDF 转成 Markdown，然后自己阅读和理解内容。

整个过程对你来说是透明的。你不需要手动调用任何命令，也不需要配置 MCP server——直接对你的 Code Agent 说"帮我读这个 PDF"就行。

这个 Skill 基于 OpenClaw 的开放标准，一次安装，跨工具通用：

| Code Agent | 支持情况 |

|:—|:—|

| Claude Code | 原生支持 |

| Cursor | 支持 |

| Cline | 支持 |

| Augment | 支持 |

| Kimi Code | 支持 |

| CodeBuddy | 支持 |

| Warp | 支持 |

不管你日常用哪个 Code Agent，装一次就行。

装完 Skill 之后，你可以直接这样对你的 Code Agent 说：

读论文：

> 帮我读一下 ./papers/attention-is-all-you-need.pdf，总结核心贡献

提取表格：

> 把 quarterly-report.pdf 里的财务数据表格提取出来

扫描件识别：

> 这份扫描的合同 contract-scan.pdf，帮我找到付款条款

批量处理：

> 把 ./docs/ 下所有 PDF 转成 Markdown

Code Agent 会自动判断用哪种模式：

小文件、快速阅读 → flash-extract（免登录，秒出结果）
大文件、需要保留表格和公式 → extract（高精度模式）

你不需要记任何命令参数。

给 Code Agent 加文档能力，很多人第一反应是"装个 MCP server"。比如跑一个本地的 document parsing 服务，配置 JSON，再写好 tool 的 schema。

能用，但太重了。

Skill 的优势是：

MCP server 更适合需要长期运行、有复杂状态管理的场景。而"读一份 PDF"这种无状态的能力，用 Skill 是更轻量的选择。

底层用的是 MinerU，上海 AI Lab 开源的文档解析引擎，GitHub 56000+ Stars，OmniDocBench 评测综合排名第一。

MinerU 不是简单的文本提取工具。它是一个完整的 document AI 引擎，核心能力包括：

如果你在做 RAG pipeline，这意味着你可以直接在 Code Agent 里完成"PDF → 结构化 Markdown → 向量化"的前两步，不用额外写 PDF 解析代码。

如果你在选 best pdf parser for RAG，MinerU 在表格还原和公式识别上的精度，是大多数 Python PDF parser 做不到的。

场景一：读技术文档写代码

你在用一个 API，文档只有 PDF 版本。以前你得自己打开 PDF，翻到对应章节，再复制粘贴到对话里。现在：

> 读一下 api-reference.pdf，找到认证相关的部分，然后帮我写一个 Python 的认证 client

Code Agent 会自己解析 PDF，找到 auth 章节，理解参数和流程，然后直接写代码。

场景二：论文调研

你要调研某个方向的 5 篇论文：

> 把 ./papers/ 下面 5 篇 PDF 都读一遍，给我一个对比表格，列出每篇的方法、数据集、主要结果

场景三：处理扫描文档

法务给了一堆扫描的合同 PDF，你需要提取关键条款：

> 读 contract-2024.pdf，这是扫描件，帮我提取合同金额、付款期限、违约条款

MinerU 的 OCR 会先把扫描件转成文字，Code Agent 再理解内容并提取你要的信息。

场景四：文档格式转换

> 把 report.pdf 转成 Word 发给我

> 把 paper.pdf 转成 Markdown 存到 ./output/

> 把 slides.pptx 转成 Markdown

支持 PDF、图片、DOCX、PPTX、Excel 等格式的输入。

真的只有一行：

npx skills add tanis90/pdf-converter-mineru

装完之后，如果你本地还没有 mineru-open-api CLI，Code Agent 会自动检测并引导你安装——不需要你自己去查文档。flash-extract 模式免登录可以直接用；如果需要高精度模式（大文件、导出 Word、批量处理），Code Agent 也会提示你做认证。

文件大小有限制吗？

flash-extract 模式限制 10 MB / 20 页。extract 模式支持 200 MB / 600 页，覆盖绝大多数文档。

支持中文文档吗？

默认就支持中英混排。MinerU 的 OCR 覆盖 80+ 种语言，中日韩、阿拉伯语、泰语等都没问题。

和直接用 MinerU CLI 有什么区别？

直接用 CLI 你需要自己敲命令、管理输出文件、再把结果贴给 AI。装了 Skill 之后，Code Agent 自己完成整个流程——你只需要用自然语言描述你想做什么。

和 MCP server 方案怎么选？

如果你已经有在跑的 MCP server 生态，可以继续用。如果你只是想让 Code Agent 能读 PDF，Skill 是更轻量的方案——一行命令搞定，不需要额外的进程和配置。

让 Code Agent 获得文档阅读能力，不需要配 MCP server，不需要写代码，一行命令：

npx skills add tanis90/pdf-converter-mineru

装完之后，PDF、扫描件、Word、PPT、图片——直接丢给你的 Code Agent，让它自己读。

无论你用的是 Claude Code、Cursor、Kimi Code 还是 Cline，同一个 Skill，同一行命令。