java爬虫入门教程(java的爬虫)

java爬虫入门教程(java的爬虫)版权声明 本文为博主原创文章 遵循版权协议 转载请附上原文出处链接和本声明 本文链接 title Java 爬虫之 JSoup 使用教程 date 2018 12 24 8 00 00 0800 update 2018 12 24 8 00 00 0800 author me cover tags 文章目录 实战获取 githubpages 的链接

大家好,我是讯享网,很高兴认识大家。



版权声明:本文为博主原创文章,遵循版权协议,转载请附上原文出处链接和本声明。

本文链接:

title: Java爬虫之JSoup使用教程 date: 2018-12-24 8:00:00 +0800 update: 2018-12-24 8:00:00 +0800 author: me cover: tags:

文章目录

实战获取githubpages的链接,并生成sitemap

JSoup是一个用于处理HTML的Java库,它提供了一个非常方便类似于使用DOM,CSS和jquery的方法的API来提取和操作数据。

jsoup实现WHATWG HTML5规范,并将HTML解析为与现代浏览器相同的DOM。

jsoup旨在处理发现所有格式有差异的HTML; 从原始和验证,到无效的标签; jsoup将创建一个明智的解析树。

能用Jsoup实现什么?

1. org.jsoup.Jsoup类

Jsoup类是任何Jsoup程序的入口点,并将提供从各种来源加载和解析HTML文档的方法。

Jsoup类的一些重要方法如下:

2. org.jsoup.nodes.Document类

该类表示通过Jsoup库加载HTML文档。可以使用此类执行适用于整个HTML文档的操作。

Element类的重要方法可以参见 - 。

3. org.jsoup.nodes.Element类

HTML元素是由标签名称,属性和子节点组成。 使用Element类,您可以提取数据,遍历节点和操作HTML。


讯享网

Element类的重要方法可参见 - 。

安装

使用maven导包,也可以使用jar

加载文档

1. URL加载文档

从URL加载文档,使用方法从URL加载HTML。

2. 从文件加载文档

使用方法从文件加载HTML。

3. 从String加载文档

使用方法从字符串加载HTML。

提取数据

使用DOM方法导航文档

元素提供了一系列类似DOM的方法来查找元素,并提取和操作它们的数据。DOM getter是上下文的:在父文档上调用,他们在文档下找到匹配的元素; 他们在一个子元素上调用了那个孩子下面的元素。通过这种方式,您可以了解所需的数据。

寻找元素
处理元素数据
操纵HTML和文本

使用selector-syntax查找元素

使用CSS或类似jquery的选择器语法来查找或操作元素。

使用和方法

jsoup元素支持(或)之类的选择器语法来查找匹配元素,从而允许非常强大和健壮的查询。 该方法在一个可用,或在。它是上下文的,因此您可以通过从特定元素中进行选择或通过链接选择调用来进行过滤。 Select返回一个Elements列表(as ),它提供了一系列提取和操作结果的方法。

从元素中提取属性,文本和HTML

在解析文档并找到一些元素之后,您将需要获取这些元素中的数据。

您有一个包含相对URL的HTML文档,您需要将其解析为绝对URL

在HTML元素中,URL通常是相对于文档的locat编写的IOn : . 当您使用该方法获取href属性时,它将按照源HTML中的指定返回。 如果要获取绝对URL,则会有一个属性键前缀,该前缀将导致根据文档的基URI解析属性值(原始位置)ION): 对于此用例,在解析文档时指定基URI很重要。 如果您不想使用前缀,还有一个方法可以执行相同的操作,但可以通过自然属性键进行访问。

示例输出

步骤

核心代码

入口类main.java
link.java 实现爬取链接
siteMapXML.java 实现构造sitemap

采用dom4j 类库,估计还会写一个关于dom4j的文章

实战获取githubpages的链接,并生成sitemap

小讯
上一篇 2025-05-16 22:51
下一篇 2025-05-13 09:33

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/163988.html