java的爬虫(java爬虫入门)

java的爬虫(java爬虫入门)copy 自 http www ayulong cn types 2 视频教程 https www bilibili com video BV1cE411u7RA p 1 网络爬虫也叫网络机器人 是一种可以按照一定规则自动采集互联网信息的程序或脚本 爬虫一般分为数据采集 处理 储存三个部分 从若干初始网页的 URL 开始抓取网页

大家好,我是讯享网,很高兴认识大家。



copy自:http://www.ayulong.cn/types/2 视频教程:https://www.bilibili.com/video/BV1cE411u7RA?p=1

网络爬虫也叫网络机器人, 是一种可以按照一定规则自动采集互联网信息的程序或脚本, 爬虫一般分为数据采集, 处理, 储存三个部分, 从若干初始网页的URL开始抓取网页, 不断获取页面上的URL放入队列直到满足系统的一定条件停止

1. 可以实现私人的搜索引擎
2. 大数据时代获取数据源, 作数据分析
3. 可以更好地进行搜索引擎优化 (SEO)
4. 有利于就业, 爬虫工程师需求量大, 发展空间广

JDK1.8

IntelliJ IDEA

DEA自带的Maven

导入 pom.xml

创建 slf4j 日志配置文件

在 resources 目录下创建 log4j.properties 文件, 并添加以下配置

最简单的爬虫程序

在java的 cn.ayulong.crawler.test 中创建 CrawlerFirst类

注意: 此方法只能抓取 http 协议的页面, 如果想抓取 https 的页面, 可以参考

HttpClient抓取https协议页面

HttpClient: Java 的 HTTP 协议客户端, 用于抓取网页数据

Get请求带参数

讯享网

使用 HttpClient 发送不带参数的 post 请求与 发送不带参数的 get 请求类似, 只是 HttpGet 要改为 HttpPost, 所以只记录带参数的 post 请求方式


讯享网

请求参数配置

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

jsoup的主要功能如下:

  1. 从一个URL,文件或字符串中解析HTML;
  2. 使用DOM或CSS选择器来查找、取出数据;
  3. 可操作HTML元素、属性、文本;( Jsoup一般用于解析爬到的数据并存储, 很少用到操作 )

先在pom中导入依赖, 搭建开发环境

Jsoup可以直接输入url,它会发起请求并获取数据,封装为Document对象

PS:虽然使用Jsoup可以替代HttpClient直接发起请求解析数据,但是往往不会这样用,因为实际的开发过程中,需要使用到多线程,连接池,代理等等方式,而jsoup对这些的支持并不是很好,所以我们一般把jsoup仅仅作为Html解析工具使用

 

 

讯享网

小讯
上一篇 2025-06-10 11:31
下一篇 2025-05-04 14:47

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/194692.html