python爬虫之xpath格式转换与去除多余标签、解决部分重定向问题的方法

python爬虫之xpath格式转换与去除多余标签、解决部分重定向问题的方法写在前面的话 实习了半个多月 总结一下学到的内容 还有在做项目中遇到的问题及其解决方式 由于找的爬虫实习岗 所以大多都是数据采集 数据库 xpath 等的使用 都是为了学习巩固 有什么不对的地方还希望各位大佬指正出来 不胜感激 附上一个特别好用的链接

大家好,我是讯享网,很高兴认识大家。

写在前面的话: 实习了半个多月,总结一下学到的内容,还有在做项目中遇到的问题及其解决方式。由于找的爬虫实习岗,所以大多都是数据采集,数据库,xpath等的使用,都是为了学习巩固,有什么不对的地方还希望各位大佬指正出来,不胜感激。


讯享网

  • 附上一个特别好用的链接,能直接获取页面,类似 postman 。 Convert curl syntax to Python 使用方法也在页面下面

一、xpath的一些用法

1. 转换格式
  • 将解析过的 xpath 转换成 HTML 字符串
  • 为什么会用到这个,是因为之前在爬取一些js包含的内容时用到了js2xml,具体可参考连接 爬虫之 JS(返回非 json 数据)的爬取 ,得到的结果是 xpath 格式,但是又不知道内容是什么
……
html = etree.HTML(text) content = etree.tostring(html, encoding="utf-8").decode("utf-8") 

讯享网
2. 去除不想要的标签
小讯
上一篇 2025-02-09 10:12
下一篇 2025-02-23 18:18

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/19857.html