零基础爬虫入门：用 Cursor 5 分钟搞定网页数据抓取

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

你是不是经常想抓点网页数据，却被“不会写代码”这道坎拦住了？

别担心，这篇文章就是为你准备的。

不用懂编程，只要会描述需求，剩下的交给 AI。

准备好了吗？我们马上开始！

开工前，先准备下环境。

用到两个主角：Cursor 和 Python。

Cursor 负责写代码，Python 负责跑代码，它是爬虫界的天选之子。

都能在官网直接下载，安装过程很简单，一路下一步就行。

Cursor
下载地址：https://www.cursor.com/
Python
下载地址：https://www.python.org/downloads/

本文基于 Cursor 0.49.6、Python 3.12。

环境准备好了，下面开始。

随便找一个网站，比如：https://mcpservers.org/

需求很简单：把这个网站上所有 MCP Servers 的信息都爬下来。

包括每张卡片里的标题、描述和网址，最后保存成一个 JSON 文件。

接下来，先看看网页长啥样。

我们能看到有很多“卡片”，里面的数据就是我们需要的。

这些卡片都被装在一个大容器里。

我们进一步分析下网页的 HTML 代码结构。

用 Chrome 浏览器，按 F12，打开开发者工具。

图中红色箭头指向的 grid 元素，就是装卡片的父级元素; 箭头指向的 flex 元素是单张卡片。

为方便理解，我把 grid 和 flex 都选中了，这样左边的网页就会高亮显示布局了。

搞清楚这些层级关系，后面提取数据就简单多了。

打开 Cursor 的聊天页面，并选择 Agent 模式。

输入以下提示词：

帮我写一个 python 程序，爬取 @https://mcpservers.org/ 上的所有 MCP Servers 列表，要求如下：

抓取 class=grid grid-cols-1 sm:grid-cols-2 lg:grid-cols-3 xl:grid-cols-4 gap-6 元素下的所有 class=rounded-xl border bg-card text-card-foreground shadow flex flex-col hover:shadow-lg transition-shadow duration-300 border-opacity-40 的子元素。
循环提取每个子元素的 title, description, url 三个属性。
将提取的内容保存到一个 data/mcp-servers.json 文件中。

以下是 Grid 中某个元素的 HTML 标签内容：

Brave Search

Web and local search using Brave‘s Search API

View" target="_blank">https://zhuanlan.zhihu.com/p/"/servers/modelcontextprotocol/brave-search">View Details

提示词很简单：先是列出三条规则，后面跟了一个卡片元素的 HTML 示例。

第一条规则：指示了如何定位父容器元素以及子元素

抓取 class=grid grid-cols-1 sm:grid-cols-2 lg:grid-cols-3 xl:grid-cols-4 gap-6 元素下的所有 class=rounded-xl border bg-card text-card-foreground shadow flex flex-col hover:shadow-lg transition-shadow duration-300 border-opacity-40 的子元素。

父元素的 class 对应截图中带有 grid 标识的那个元素的 class 值。
同理，子元素的 class 就是那个 flex 元素的 class 值。

第二条：写明希望抽取哪些信息。

循环提取每个子元素的 title, description, url 三个属性。

第三条：写明期望的数据格式，及保存路径。

将提取的内容保存到一个 data/mcp-servers.json 文件中。

最后一条规则：

主要是给一个从网页中复制的元素 HTML 示例，说明需要提取的 title、description、url 三个属性所在元素的 HTML 结构。

我懒得写。因为要为这三个属性详细指定如何定位？太麻烦！

这些麻烦事，应该由 AI 去主动理解并搞定。

我就直接将卡片元素的 HTML（在前文截图中开发者工具中找）拷贝到输入框中了。

提示词写好后，剩下的就交给 Cursor 吧。

确认一下模式是不是 Agent，没问题就点“发送”。

Cursor 在 Agent 模式下会自动写代码、运行代码、生成文件，全程不用你操心。

以下是我的配置项：

只需要等一小会，结果会出来。

运行结束后，打开 data/mcp-servers.json 文件，就能看到结果。

整个过程，我们几乎没有动手，但数据已经到手了。

是不是很有成就感？

就是写了一些提示词，然后等着收货。

额外说明下，模型选择的是 auto，没有选代码能力最强的模型，比如: Claude 3.7 Sonnet 或 Gemini 2.5 Pro。

因为没必要。对于这种简单的任务，很多小模型也能处理的很好。

爬虫的本质是读取页面 HTML 后提取数据。

只用掌握一点网页知识，配合如今的 AI 辅助编程工具，这项任务现在已经变得很简单了。

虽然我用的是 Cursor，但其他 AI 辅助编程工具如 Windsurf、Trae、VSCode + Cline 等也是一样的。

对于独立任务，且从空项目开始的，Cursor 的 Agent 模式是首选。

对于如何绕开反爬机制，使用无头浏览器进行登陆验证，等高级爬虫技术，不在本文讨论范围内。

建议大家也去试试吧，体验一下 AI 编程的乐趣。

希望这篇文章对你有所帮助。如果觉得有用，欢迎点赞、收藏、转发。

也欢迎关注我，一起学习 AI 知识。

零基础爬虫入门：用 Cursor 5 分钟搞定网页数据抓取

相关推荐