2025年Python爬虫：新浪新闻详情页的数据抓取（函数版）

科技前沿 • 2025-03-21 09:09 • 阅读 53

Python爬虫：新浪新闻详情页的数据抓取（函数版）上一篇文章 Python 爬虫抓取新浪新闻数据详细解说了如何抓取新浪新闻详情页的相关数据但代码的构建不利于后续扩展每次抓取新的详情页时都需要重新写一遍因此我们需要将其整理成函数方便直接调用详情页抓取的 6 个数据新闻标题评论数时间来源正文责任编辑

大家好，我是讯享网，很高兴认识大家。

上一篇文章《Python爬虫：抓取新浪新闻数据》详细解说了如何抓取新浪新闻详情页的相关数据，但代码的构建不利于后续扩展，每次抓取新的详情页时都需要重新写一遍，因此，我们需要将其整理成函数，方便直接调用。

详情页抓取的6个数据：新闻标题、评论数、时间、来源、正文、责任编辑。

首先，我们先将评论数整理成函数形式表示：

 1 import requests  2 import json  3 import re  4  5 comments_url = 'http://comment5.news.sina.com.cn/page/info?version=1&format=js&channel=gn&newsid=comos-{}&group=&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=20'  6  7 def getCommentsCount(newsURL):  8 ID = re.search('doc-i(.+).shtml', newsURL)  9 newsID = ID.group(1) 10 commentsURL = requests.get(comments_url.format(newsID)) 11 commentsTotal = json.loads(commentsURL.text.strip('var data=')) 12 return commentsTotal['result']['count']['total'] 13 14 news = 'http://news.sina.com.cn/c/nd/2017-05-14/doc-ifyfeius7904403.shtml' 15 print(getCommentsCount(news))

讯享网

小讯

2025年spite用法 java_despite 和in spite of 用法

上一篇 2025-01-09 11:39

bat进入anaconda虚拟环境，然后执行各种命令

下一篇 2025-03-25 07:40

2025年spite用法 java_despite 和in spite of 用法 1735995221
2025年什么是IIS？ 1735995220
2025年window硬盘管理 1735995220
2025年使用 Apache Synapse 将现有的系统转化为 SOA 平台(Apache Synapse简介) 1735995219
2025年常用 sap 表德语缩写英汉注释 1735995218
2025年IEEE Transactions on Industrial Informatics（TII）投稿须知 1735995218
LBP算法原理 1735995217
800M数字集群系统介绍 1735995216
2025年[生存志] 第65节曾参公西赤 1735995216
bat进入anaconda虚拟环境，然后执行各种命令 1735995223
2025年为什么乐蜂网的估值这么低 1735995223
2025年流过平板的超声速流动的CFD计算（附完整代码） 1735995224
2025年重言式的判别 1735995224
无人机飞控技术最详细解读 1735995225
2025年基于STC89C52单片机的LED显示电子钟制作 1735995225
2025年DIN 轴承标准目录 1735995226
2025年常用的锂电池充电芯片 1735995227
2025年三星将采用铁电材料实现1000层3D NAND 1735995228

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们，一经查实，本站将立刻删除。
如需转载请保留出处：https://51itzy.com/kjqy/40932.html