在做网页自动化的朋友,大概都有过这样的时刻:
这种痛苦,大家懂,我也懂。
不过最近我发现一款完全不走传统 XPath/DOM 路子的开源自动化工具 — Skyvern。在Github直接斩获18K+星星。
它用的不是传统网页结构解析,而是视觉 + 大语言模型来理解网页。换句话说,它不是解析网页,而是看网页。
不仅能看懂网页,还能自己执行任务、串联工作流、完全本地部署。
项目简介
Skyvern 是一款基于视觉大模型(VLM)驱动的网页自动化工具。
可以自动截图网页 → 让视觉模型理解布局;识别按钮、输入框、表格、交互区域;自动生成操作步骤;模拟人类点击、输入、拖拽、登录等。
即使网站布局调整、按钮换位置,它依然能完成任务。因为它不依赖编码元素,而是依赖“视觉理解”。
主要功能
快速入手
安装Skyvern
pip install skyvern
运行 Skyvern,该命令对于首次运行(数据库设置、数据库迁移等)最有帮助。
GPT plus 代充 只需 145skyvern quickstart
启动 Skyvern 服务和用户界面
skyvern run all
然后访问http://localhost:8080并使用用户界面运行任务
简单代码示例:
GPT plus 代充 只需 145from skyvern import Skyvern
skyvern = Skyvern() task = await skyvern.run_task(prompt="Find the top post on hackernews today") print(task)
还可以针对不同的目标运行任务:
from skyvern import Skyvern
Run on Skyvern Cloud
skyvern = Skyvern(api_key="SKYVERN API KEY")
Local Skyvern service
skyvern = Skyvern(base_url="http://localhost:8000", api_key="LOCAL SKYVERN API KEY")
task = await skyvern.run_task(prompt="Find the top post on hackernews today") print(task)
还有更多高级用法,可自行探索!
核心理念
让 AI 像人类一样「看」网页,并理解网页,而不是依赖 DOM。
它主要依赖:
这意味着 Skyvern 能做的事包括:
典型能力
① 自动执行常见网页任务:对于自动化登录、后台数据下载、填写表单、批量处理网页任务,非常适合。
② 可视化工作流:内置了一个可视化界面,可以像搭积木一样串联多个任务,对于非工程师或运维团队来说特别友好。
③ 模拟人的操作:与纯 API/脚本调用不一样,它模拟的是真实用户行为。所以它执行的任务更加接近真实环境,不容易被反爬机制识别。
写在最后
Skyvern 是我近半年见过最实用、最具潜力的开源自动化工具之一。
它靠“视觉 + AI”来理解页面结构,不依赖DOM,不怕改版,真正适合:
未来网页自动化的核心不再是 XPath,而是让 AI 像人一样读网页。
GitHub 项目地址:https://github.com/Skyvern-AI/skyvern
如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️
在看你就赞赞我!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/242972.html