本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理
以下文章来源于腾讯云 作者:py3study
( 想要学习Python?Python学习交流群:,满足你的需求,资料都已经上传群文件流,可以自行下载!还有海量最新2020python学习资料。 )

讯享网

一. 概要
二. 页面分析
首先通过firedebug进行页面定位:

其次源码定位:

最终生成lxml etree定位div标签源码:
response = etree.HTML(data) for row in response.xpath('//div[@class="left"]/div[@class="sons"]/div[@class="cont"]'): content = row.xpath('a/text()')[0] origin = row.xpath('a/text()')[-1] self.db.add_new_row('mingJuSpider', {
'content': content, 'origin': origin, 'createTime': str(date.today())})
讯享网
三. 执行结果

四. 脚本源码
讯享网#!/usr/bin/env python # -*- coding: utf-8 -*- ''' @Date : 2017/12/21 12:35 @Author : kaiqing.huang @File : mingJuSpider.py ''' from utils import MySpider, MongoBase from datetime import date from lxml import etree import sys class mingJuSpider(): def __init__(self): self.db = MongoBase() self.spider = MySpider() def download(self): for pageId in range(1,117): url = 'http://so.gushiwen.org/mingju/Default.aspx?p={}&c=&t='.format(pageId) print url data = self.spider.get(url) if data: self.parse(data) def parse(self, data): response = etree.HTML(data) for row in response.xpath('//div[@class="left"]/div[@class="sons"]/div[@class="cont"]'): content = row.xpath('a/text()')[0] origin = row.xpath('a/text()')[-1] self.db.add_new_row('mingJuSpider', {
'content': content, 'origin': origin, 'createTime': str(date.today())}) if __name__ == '__main__': sys.setrecursionlimit() do = mingJuSpider() do.download()
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/56300.html