2026年OpenClaw 永久免费的提取任何网页的终极方案

OpenClaw 永久免费的提取任何网页的终极方案用 AI 写文章 最大的隐藏成本不是模型调用次数 而是每次抓网页时塞进去的 token 今天做了一次完整的实测 对比了 Jina Scrapling web fetch 三个方案 发现差别大到出乎意料 在用 AI 做内容创作时 流程大概是这样的 找到一篇参考文章 读取全文 AI 消化后写稿 是最直接的工具 给一个 URL 就返回内容 但用着用着发现不对 一篇普通技术博客

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



用 AI 写文章,最大的隐藏成本不是模型调用次数,而是每次抓网页时塞进去的 token。今天做了一次完整的实测,对比了 Jina、Scrapling、web_fetch 三个方案——发现差别大到出乎意料。

在用 AI 做内容创作时,流程大概是这样的:找到一篇参考文章 → 读取全文 → AI 消化后写稿。

是最直接的工具,给一个 URL 就返回内容。但用着用着发现不对:

  • 一篇普通技术博客,轻松返回 8000-15000 token
  • 遇到 GitHub README 或文档页,可能更多
  • 一篇文章采集 3-5 个信息源,光读内容就烧掉几万 token

更麻烦的是, 返回的是整个页面,包括:导航栏、侧边栏、页脚、广告、"相关推荐"……真正有用的正文可能只占 30%。

拿了一篇 Substack 文章做测试:《How I Dropped Our Production Database》,同条件(max 12000字符)横向对比三种提取方式。

用法:

 
  

Jina 是专门做网页内容提取的服务,会自动渲染页面、抽取正文、去掉导航和广告,返回干净的 Markdown。

实测效果:

 
  

标题、正文、链接、图片、列表——格式全保留,干净利落。速度约 1.4 秒。

缺点:每天免费限额 200 次。高产时期两三天就能跑完。

 
  

测试同一篇文章——直接报错:。

Substack 有反爬机制,web_fetch 根本进不去。对于 Medium、部分付费博客、微信公众号,同样的问题。

即使是能抓到的页面,返回的也是全页 HTML 转 Markdown,噪音多、token 浪费严重。

结论:只适合静态页面(GitHub README、普通技术博客),不适合有反爬的主流平台。

Scrapling 是一个开源 Python 爬虫框架(GitHub: D4Vinci/Scrapling),项目定位是"为现代 Web 设计的自适应爬虫"。核心特性:

  • 原生绕过反爬:StealthyFetcher 能绕过 Cloudflare Turnstile 等主流反爬系统,不需要额外配置
  • 自适应选择器:网站改版导致 selector 失效时,能自动重新定位元素,不需要手动维护
  • 零依赖启动:,没有复杂的浏览器驱动配置

Scrapling GitHub 项目主页(24.9k Star)

用法:

 
  

脚本逻辑:

  1. 用 拿到页面 HTML
  2. 按优先级尝试正文选择器:
  3. 找到正文后,用 把 HTML 转成 Markdown
  4. 截断到指定字符数

实测效果:

 
  

和 Jina 几乎一样干净,标题层级、链接、图片 URL、列表都保留了。速度约 3 秒,无限制,不需要 API Key

三种方案提取效果对比

测试微信公众号链接()时:

  • Jina → 直接 403 拦截,内容为空
  • web_fetch → 请求被中断
  • Scrapling → 完整拿到正文,Markdown 格式,图片链接也保留

微信公众号有专门的反爬,Jina 和 web_fetch 都进不去,但 Scrapling 的 能绕过去。

这个发现意义很大——之前我们读公众号文章要么靠搜索工具(只能拿摘要),要么靠浏览器渲染(慢且复杂),现在一行命令就能拿全文。

微信公众号文章:Scrapling 直接能拿全文,Jina 403,这一条就值得把 Scrapling 装上。

经过实测,确定了这套分级策略:

优先级 方案 适用场景 限制 1 Jina Reader 大部分英文博客、Substack、Medium 200次/天 2 Scrapling Jina 超限、微信公众号、反爬平台 无限制 3 web_fetch 静态页面、GitHub、技术文档 全页噪音多 4 Browser Firefox 需要登录态、极端反爬 最慢

域名快捷路由: 直接用 Scrapling,跳过 Jina,不浪费配额。

关于 maxChars: 统一设 30000,既保证完整正文,又不会塞爆 context。

最开始用 Scrapling 时,直接调 提取文本,以为可以省事。结果发现:

 
  

纯文字流,段落消失,链接消失,图片消失,标题层级消失。对 AI 写稿来说,链接和图片 URL 都是有价值的素材——引用图片、追溯信息源都要用。

正确做法是先拿 ,再用 转换:

 
  

这一步加上去,输出就和 Jina 一样干净了。

  • Jina:最好用,格式最干净,但每天 200 次限额
  • Scrapling + html2text:效果和 Jina 相当,无限制,能读微信公众号(Jina 做不到)
  • web_fetch:有反爬的平台直接失败,只适合静态页面
  • maxChars 统一设 30000:省 token 的同时保留完整正文
  • 微信公众号直接走 Scrapling,不要浪费 Jina 配额

三个工具不是竞争关系,是互补关系。组合起来用,覆盖 99% 的内容提取场景。

🦞 获取完整 Skill 文件

关注公众号「石臻说AI」,回复「scrapling」获取本文完整的 OpenClaw Skill 配置文件和 scrapling_fetch.py 脚本。

进**流:回复「进群」加入小龙虾养殖交流群,和更多 OpenClaw 用户一起折腾 AI 自动化。

  • Scrapling GitHub:github.com/D4Vinci/Scr…
  • Jina Reader 文档:jina.ai/reader
  • html2text PyPI:pypi.org/project/htm…

小讯
上一篇 2026-03-30 11:10
下一篇 2026-03-30 11:08

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/230704.html