2025年python爬虫selenium爬取开开贷黑名单

科技前沿 • 2025-01-28 07:39 • 阅读 64

python爬虫selenium爬取开开贷黑名单第一次用 selenium 爬取黑名单数据但是不够自动化页面总长和每页有多少条记录都是手动设置变量添加的很不智能这次代码改进了一下内容 1 把页码有关的信息切出来自动获取页数 2 查找每页有多少记录 3 利用两个 list 保存数据更好维护 4 利用 css selector 获取数据并且改了 5 写成了函数更加规范 6 抛出异常

大家好，我是讯享网，很高兴认识大家。

第一次用selenium爬取黑名单数据，但是不够自动化，页面总长和每页有多少条记录都是手动设置变量添加的，很不智能。

这次代码改进了一下内容：

（1）把页码有关的信息切出来，自动获取页数

（2）查找每页有多少记录

（3）利用两个list保存数据，更好维护

（4）利用css_selector获取数据，并且改了

（5）写成了函数，更加规范

（6）抛出异常

（7）timeout的问题，原来设置了30，后来timeout抛出了异常，改为120

题外话：selenium很方便，最大的好处是解决了动态网页的问题，虽然本题不是动态网页，但是相对速度也慢些，爬取378条数据需要超过400秒。

import time,csv import traceback from selenium import webdriver from selenium.webdriver.common.keys import Keys url_whole='http://www.kaikaidai.com/Lend/Black.aspx' # 加载所有页面 def parsePage(): #设置驱动浏览器s browser=webdriver.Chrome() #设置响应 browser.set_page_load_timeout(120) #获取网址 browser.get(url_whole) #找多少页 page_info=browser.find_element_

讯享网

小讯

2025年在word文档中插入外部对象（例如插入另一个外部word文档或excel文档）

上一篇 2025-04-08 16:47

深入了解计算机系统——实验三（Bomb Lab）（详解）

下一篇 2025-04-06 14:52

2025年在word文档中插入外部对象（例如插入另一个外部word文档或excel文档） 1736038911
Web安全期末复习 1736038910
2025年PNG文件格式详解 1736038909
2025年a标签中href的几种用法 1736038908
2025年linux下c语言读取roed文件,如何在Linux系统上安装Android4.4.docx 1736038908
分布式之任务调度Elastic-Job学习一 1736038907
ASEMI肖特基二极管1N5819参数，1N5819代换，1N5819货源 1736038907
2025年HCFL阅读笔记 1736038906
2025年崔玉昌·零基础美化登录页面的样式(第3课) 1736038905
深入了解计算机系统——实验三（Bomb Lab）（详解） 1736038914
什么是分布式部署？ 1736038915
2025年AutoDock分子对接 1736038915
2025年seo外链网站大全_再推一批免费收录网站的网址导航站长SEO必备 1736038916
k8s集群部署五（创建Node节点kubeconfig文件） 1736038916
2025年狭义的Infra到广义的Infra_看看AWS的发展 1736038917
2025年c语言控制台输入输出函数库：conio.h 1736038918
2025年万用表如何进行欧姆校零 1736038918
2025年数学知识-质数 1736038919

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们，一经查实，本站将立刻删除。
如需转载请保留出处：https://51itzy.com/kjqy/114536.html