2025年python爬虫——带你爬取古诗名句，考试什么的不就是轻轻松松

科技前沿 • 2025-02-19 16:26 • 阅读 27

大家好，我是讯享网，很高兴认识大家。

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

以下文章来源于腾讯云作者：py3study

( 想要学习Python？Python学习交流群：，满足你的需求，资料都已经上传群文件流，可以自行下载！还有海量最新2020python学习资料。 )
在这里插入图片描述
讯享网

一. 概要

二. 页面分析

首先通过firedebug进行页面定位：
在这里插入图片描述
其次源码定位：

最终生成lxml etree定位div标签源码：

response = etree.HTML(data) for row in response.xpath('//div[@class="left"]/div[@class="sons"]/div[@class="cont"]'): content = row.xpath('a/text()')[0] origin = row.xpath('a/text()')[-1] self.db.add_new_row('mingJuSpider', { 
   'content': content, 'origin': origin, 'createTime': str(date.today())})

讯享网

三. 执行结果

在这里插入图片描述

四. 脚本源码

讯享网#!/usr/bin/env python # -*- coding: utf-8 -*- ''' @Date : 2017/12/21 12:35 @Author : kaiqing.huang @File : mingJuSpider.py ''' from utils import MySpider, MongoBase from datetime import date from lxml import etree import sys class mingJuSpider(): def __init__(self): self.db = MongoBase() self.spider = MySpider() def download(self): for pageId in range(1,117): url = 'http://so.gushiwen.org/mingju/Default.aspx?p={}&c=&t='.format(pageId) print url data = self.spider.get(url) if data: self.parse(data) def parse(self, data): response = etree.HTML(data) for row in response.xpath('//div[@class="left"]/div[@class="sons"]/div[@class="cont"]'): content = row.xpath('a/text()')[0] origin = row.xpath('a/text()')[-1] self.db.add_new_row('mingJuSpider', { 
   'content': content, 'origin': origin, 'createTime': str(date.today())}) if __name__ == '__main__': sys.setrecursionlimit() do = mingJuSpider() do.download()

2025年python爬虫——带你爬取古诗名句，考试什么的不就是轻轻松松

一. 概要

二. 页面分析

三. 执行结果

四. 脚本源码

相关推荐