2025年python爬虫——带你爬取古诗名句,考试什么的不就是轻轻松松

python爬虫——带你爬取古诗名句,考试什么的不就是轻轻松松本文的文字及图片来源于网络 仅供学习 交流使用 不具有任何商业用途 版权归原作者所有 如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者 py3study 想要学习 Python Python 学习交流群 满足你的需求 资料都已经上传群文件流 可以自行下载

大家好,我是讯享网,很高兴认识大家。

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

以下文章来源于腾讯云 作者:py3study

( 想要学习Python?Python学习交流群:,满足你的需求,资料都已经上传群文件流,可以自行下载!还有海量最新2020python学习资料。 )
在这里插入图片描述
讯享网

一. 概要

二. 页面分析

首先通过firedebug进行页面定位:
在这里插入图片描述
其次源码定位:
在这里插入图片描述
最终生成lxml etree定位div标签源码:

response = etree.HTML(data) for row in response.xpath('//div[@class="left"]/div[@class="sons"]/div[@class="cont"]'): content = row.xpath('a/text()')[0] origin = row.xpath('a/text()')[-1] self.db.add_new_row('mingJuSpider', { 
   'content': content, 'origin': origin, 'createTime': str(date.today())}) 

讯享网

三. 执行结果

在这里插入图片描述

四. 脚本源码

讯享网#!/usr/bin/env python # -*- coding: utf-8 -*- ''' @Date : 2017/12/21 12:35 @Author : kaiqing.huang @File : mingJuSpider.py ''' from utils import MySpider, MongoBase from datetime import date from lxml import etree import sys class mingJuSpider(): def __init__(self): self.db = MongoBase() self.spider = MySpider() def download(self): for pageId in range(1,117): url = 'http://so.gushiwen.org/mingju/Default.aspx?p={}&c=&t='.format(pageId) print url data = self.spider.get(url) if data: self.parse(data) def parse(self, data): response = etree.HTML(data) for row in response.xpath('//div[@class="left"]/div[@class="sons"]/div[@class="cont"]'): content = row.xpath('a/text()')[0] origin = row.xpath('a/text()')[-1] self.db.add_new_row('mingJuSpider', { 
   'content': content, 'origin': origin, 'createTime': str(date.today())}) if __name__ == '__main__': sys.setrecursionlimit() do = mingJuSpider() do.download() 
小讯
上一篇 2025-02-22 10:51
下一篇 2025-04-07 20:24

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/56300.html