零基础爬虫入门:用 Cursor 5 分钟搞定网页数据抓取

零基础爬虫入门:用 Cursor 5 分钟搞定网页数据抓取你是不是经常想抓点网页数据 却被 不会写代码 这道坎拦住了 别担心 这篇文章就是为你准备的 不用懂编程 只要会描述需求 剩下的交给 AI 准备好了吗 我们马上开始 开工前 先准备下环境 用到两个主角 Cursor 和 Python Cursor 负责写代码 Python 负责跑代码 它是爬虫界的天选之子 都能在官网直接下载 安装过程很简单 一路下一步就行 Cursor

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



你是不是经常想抓点网页数据,却被“不会写代码”这道坎拦住了?

别担心,这篇文章就是为你准备的。

不用懂编程,只要会描述需求,剩下的交给 AI。

准备好了吗?我们马上开始!

开工前,先准备下环境。

用到两个主角:Cursor 和 Python。

Cursor 负责写代码,Python 负责跑代码,它是爬虫界的天选之子。

都能在官网直接下载,安装过程很简单,一路下一步就行。

  • Cursor
    下载地址:cursor.com/





  • Python
    下载地址:python.org/downloads/





本文基于 Cursor 0.49.6、Python 3.12。



环境准备好了,下面开始。

随便找一个网站,比如:mcpservers.org/

需求很简单:把这个网站上所有 MCP Servers 的信息都爬下来。

包括每张卡片里的标题、描述和网址,最后保存成一个 JSON 文件。

接下来,先看看网页长啥样。

我们能看到有很多“卡片”,里面的数据就是我们需要的。

这些卡片都被装在一个大容器里。

我们进一步分析下网页的 HTML 代码结构。

用 Chrome 浏览器,按 F12,打开开发者工具。

图中红色箭头指向的 grid 元素,就是装卡片的父级元素; 箭头指向的 flex 元素是单张卡片。

为方便理解,我把 gridflex 都选中了,这样左边的网页就会高亮显示布局了。

搞清楚这些层级关系,后面提取数据就简单多了。

打开 Cursor 的聊天页面,并选择 Agent 模式。

输入以下提示词:

帮我写一个 python 程序,爬取 @https://mcpservers.org/ 上的所有 MCP Servers 列表,要求如下:

  • 抓取 class=grid grid-cols-1 sm:grid-cols-2 lg:grid-cols-3 xl:grid-cols-4 gap-6 元素下的所有 class=rounded-xl border bg-card text-card-foreground shadow flex flex-col hover:shadow-lg transition-shadow duration-300 border-opacity-40 的子元素。
  • 循环提取每个子元素的 title, description, url 三个属性。
  • 将提取的内容保存到一个 data/mcp-servers.json 文件中。

以下是 Grid 中某个元素的 HTML 标签内容:

Brave Search
Web and local search using Brave‘s Search API

提示词很简单:先是列出三条规则,后面跟了一个卡片元素的 HTML 示例。

第一条规则:指示了如何定位父容器元素以及子元素

抓取 class=grid grid-cols-1 sm:grid-cols-2 lg:grid-cols-3 xl:grid-cols-4 gap-6 元素下的所有 class=rounded-xl border bg-card text-card-foreground shadow flex flex-col hover:shadow-lg transition-shadow duration-300 border-opacity-40 的子元素。
  • 父元素的 class 对应截图中带有 grid 标识的那个元素的 class 值。
  • 同理,子元素的 class 就是那个 flex 元素的 class 值。

第二条:写明希望抽取哪些信息。

循环提取每个子元素的 title, description, url 三个属性。

第三条:写明期望的数据格式,及保存路径。

将提取的内容保存到一个 data/mcp-servers.json 文件中。

最后一条规则:

主要是给一个从网页中复制的元素 HTML 示例,说明需要提取的 title、description、url 三个属性所在元素的 HTML 结构。

我懒得写。因为要为这三个属性详细指定如何定位?太麻烦!

这些麻烦事,应该由 AI 去主动理解并搞定。

我就直接将卡片元素的 HTML(在前文截图中开发者工具中找)拷贝到输入框中了。

提示词写好后,剩下的就交给 Cursor 吧。

确认一下模式是不是 Agent,没问题就点“发送”。

Cursor 在 Agent 模式下会自动写代码、运行代码、生成文件,全程不用你操心。

以下是我的配置项:

只需要等一小会,结果会出来。

运行结束后,打开 data/mcp-servers.json 文件,就能看到结果。

整个过程,我们几乎没有动手,但数据已经到手了。

是不是很有成就感?

就是写了一些提示词,然后等着收货。

额外说明下,模型选择的是 auto,没有选代码能力最强的模型,比如: Claude 3.7 Sonnet 或 Gemini 2.5 Pro。

因为没必要。对于这种简单的任务,很多小模型也能处理的很好。

爬虫的本质是读取页面 HTML 后提取数据。

只用掌握一点网页知识,配合如今的 AI 辅助编程工具,这项任务现在已经变得很简单了。

虽然我用的是 Cursor,但其他 AI 辅助编程工具如 WindsurfTraeVSCode + Cline 等也是一样的。

对于独立任务,且从空项目开始的,Cursor 的 Agent 模式是首选。

对于如何绕开反爬机制,使用无头浏览器进行登陆验证,等高级爬虫技术,不在本文讨论范围内。

建议大家也去试试吧,体验一下 AI 编程的乐趣。

希望这篇文章对你有所帮助。如果觉得有用,欢迎点赞、收藏、转发。

也欢迎关注我,一起学习 AI 知识。

小讯
上一篇 2026-04-09 12:00
下一篇 2026-04-09 11:58

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/217651.html