1、线程
2、队列
3、requests库
4、json
5、pdfkit
注意:由于需要保存成PDF,我这里用了pdfkit,使用前得先安装http://wkhtmltopdf http://wkhtmltopdf.org/downloads.html windows选择 选择 7z Archive 下载解压即可

https://gate.lagou.com/v1/neirong/kaiwu/getCourseLessonDetail?lessnotallow=xxx 最后的数字是课程的id,为了一次性爬取所有课程文章,那么就需要知道所有课程文章的id,继续分析请求…

到了这里基本上思路都已经通了,简单总结下:
1、找到所有课程文章的id,用来拼接正确的url
2、通过抓包分析找到课程文章html的请求url,解析得到html
3、将html转换成pdf
好了上具体代码:
请控制下爬取的速度,太快可能会导致账号被封…大饼在调试程序的过程中曾被封过,过了一段时间后才恢复…

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/136304.html