2025年bs4解析器(bs4数据解析)

bs4解析器(bs4数据解析)print soup ul 返回 ul 所有内容 lt ul gt span style color rgba 0 0 0 1 span lt li gt lt

大家好,我是讯享网,很高兴认识大家。



 print(soup.ul) #返回ul所有内容
讯享网
讯享网# </span>&lt; ul &gt;<span style="color: rgba(0, 0, 0, 1)"> # </span>&lt; li &gt; &lt;<span style="color: rgba(0, 0, 0, 1)"> a # href </span>= <span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(128, 0, 0, 1)">http://www.baidu.com</span><span style="color: rgba(128, 0, 0, 1)">"</span> &gt; 百度 &lt; / a &gt; &lt; / li &gt;<span style="color: rgba(0, 0, 0, 1)"> # </span>&lt; li &gt; &lt;<span style="color: rgba(0, 0, 0, 1)"> a # href </span>= <span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(128, 0, 0, 1)">http://www.google.com</span><span style="color: rgba(128, 0, 0, 1)">"</span> &gt; 谷歌 &lt; / a &gt; &lt; / li &gt;<span style="color: rgba(0, 0, 0, 1)"> # </span>&lt; li &gt; &lt;<span style="color: rgba(0, 0, 0, 1)"> a # href </span>= <span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(128, 0, 0, 1)">http://www.sogou.com</span><span style="color: rgba(128, 0, 0, 1)">"</span> &gt; 搜狗 &lt; / a &gt; &lt; / li &gt;<span style="color: rgba(0, 0, 0, 1)"> # </span>&lt; / ul &gt;<span style="color: rgba(0, 0, 0, 1)"> 
print(soup.div) #等同于print(soup.find(div)) #具体定位到某一个div,可根据属性定位
print(soup.find(‘div’,class_=‘common’)) #&lt;div class=“common”&gt;胡辣汤&lt;/div&gt;
# 属性定位
soup.findAll(‘tagName’) #返回soup中符合要求的所有标签
a_list = soup.findAll(‘a’) #返回的是一个列表
for a in alist:
print(a)
print(soup.findAll(‘a’)[1]) #定位第2a标签的内容
# &lt;a href=”http://www.google.com”&gt;谷歌&lt;/a&gt;

讯享网
 
讯享网# select选择器:
# -select(’某种选择器(id,class ,标签。。。选择器)’)
print(soup.select(’.common’)) #返回login下的所有标签 :[&lt;div class=“common”&gt;胡辣汤&lt;/div&gt;]
print(soup.select(‘div’)[1]) #返回一个列表 :&lt;div class=“job”&gt;李嘉诚&lt;/div&gt;
 
讯享网# 层级选择器
# soup.select(‘.tag &gt; ul &gt; li &gt; a’)[1]#:表示的一个层级,不能在里写所有,
print(soup.select(’.url &gt; ol &gt; li &gt; a ‘))
# [&lt;a href=”https://www.cnblogs.com/zp513/p/feiji”&gt;飞机&lt;/a&gt;, &lt;a href=”https://www.cnblogs.com/zp513/p/dapao”&gt;大炮&lt;/a&gt;, &lt;a href=”https://www.cnblogs.com/zp513/p/huoche”&gt;火车&lt;/a&gt;
#一个&gt;表示一个层级
print(soup.select(’.url &gt; ul &gt; li &gt; a’)[0][‘href’])
# http://www.baidu.com
讯享网print(soup.select(’.url ul a’)) #[&lt;a href=”http://www.baidu.com”&gt;百度&lt;/a&gt;, &lt;a href=”http://www.google.com”&gt;谷歌&lt;/a&gt;, &lt;a href=”http://www.sogou.com”&gt;搜狗&lt;/a&gt;]
print(soup.select(’.url ol li a’)) #[&lt;a href=”https://www.cnblogs.com/zp513/p/feiji”&gt;飞机&lt;/a&gt;, &lt;a href=”https://www.cnblogs.com/zp513/p/dapao”&gt;大炮&lt;/a&gt;, &lt;a href=”https://www.cnblogs.com/zp513/p/huoche”&gt;火车&lt;/a&gt;]
获取标签的文本数据
讯享网#text/get.text() 可以获取某一个标签中所有内容
#string :获取直系标签的内容
print(soup.find(‘div’,class= ‘url’).text) #获取一个url下的所有的值
百度
谷歌
搜狗
飞机
大炮
火车
#获取某一个元素的值
print(soup.find(‘div’,class_= ‘job’).string) #李嘉诚

获取属性的值比如href

讯享网links = soup.findAll(‘a’)
for link in links:
print(link[‘href’])

小讯
上一篇 2025-05-17 10:59
下一篇 2025-05-01 07:52

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/149857.html