java的爬虫（java爬虫入门）

科技前沿 • 2025-04-30 13:32 • 阅读 29

java的爬虫（java爬虫入门）copy 自 http www ayulong cn types 2 视频教程 https www bilibili com video BV1cE411u7RA p 1 网络爬虫也叫网络机器人是一种可以按照一定规则自动采集互联网信息的程序或脚本爬虫一般分为数据采集处理储存三个部分从若干初始网页的 URL 开始抓取网页

大家好，我是讯享网，很高兴认识大家。

copy自：http://www.ayulong.cn/types/2 视频教程：https://www.bilibili.com/video/BV1cE411u7RA?p=1

网络爬虫也叫网络机器人, 是一种可以按照一定规则自动采集互联网信息的程序或脚本, 爬虫一般分为数据采集, 处理, 储存三个部分, 从若干初始网页的URL开始抓取网页, 不断获取页面上的URL放入队列直到满足系统的一定条件停止

1. 可以实现私人的搜索引擎

2. 大数据时代获取数据源, 作数据分析

3. 可以更好地进行搜索引擎优化 (SEO)

4. 有利于就业, 爬虫工程师需求量大, 发展空间广

JDK1.8

IntelliJ IDEA

DEA自带的Maven

导入 pom.xml

创建 slf4j 日志配置文件

在 resources 目录下创建 log4j.properties 文件, 并添加以下配置

最简单的爬虫程序

在java的 cn.ayulong.crawler.test 中创建 CrawlerFirst类

注意: 此方法只能抓取 http 协议的页面, 如果想抓取 https 的页面, 可以参考

HttpClient抓取https协议页面

HttpClient: Java 的 HTTP 协议客户端, 用于抓取网页数据

Get请求带参数

使用 HttpClient 发送不带参数的 post 请求与发送不带参数的 get 请求类似, 只是 HttpGet 要改为 HttpPost, 所以只记录带参数的 post 请求方式

请求参数配置

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

jsoup的主要功能如下：

从一个URL，文件或字符串中解析HTML；
使用DOM或CSS选择器来查找、取出数据；
可操作HTML元素、属性、文本；( Jsoup一般用于解析爬到的数据并存储, 很少用到操作 )

先在pom中导入依赖, 搭建开发环境

Jsoup可以直接输入url，它会发起请求并获取数据，封装为Document对象

PS：虽然使用Jsoup可以替代HttpClient直接发起请求解析数据，但是往往不会这样用，因为实际的开发过程中，需要使用到多线程，连接池，代理等等方式，而jsoup对这些的支持并不是很好，所以我们一般把jsoup仅仅作为Html解析工具使用

 

 

讯享网

小讯

2025年2258xt主控跳线（2258h 跳线）

上一篇 2025-06-10 11:31

2025年nvim配置（nvim配置快捷键）

下一篇 2025-05-04 14:47

2025年2258xt主控跳线（2258h 跳线） 1744588800
2025年ResNET50和unet（resnet50和unet结合代码） 1744588800
2025年Xmouse怎么才能被检测（xmouse怎么快捷键关闭） 1744588800
srore的名词（reassure的名词是什么） 1744588800
2025年国内版github（必应bing国内版） 1744588800
vue2和vue3区别数据双向绑定（vue是双向绑定的吗） 1744588800
qpainterpath清空（qpainterpath cubicto） 1744588800
2025年react 组件（react 组件库） 1744588800
2025年怎么删除虚拟环境（怎么删除虚拟环境jupyter） 1744588800
2025年nvim配置（nvim配置快捷键） 1744588800
2025年stores的翻译（store opening翻译） 1744588800
junit4的优点（junit特点） 1744588800
2025年java字符串转字符集（java字符串转char） 1744588800
python执行py文件（python3.7运行py文件） 1744588800
2025年pytorch模型部署 django（pytorch模型部署到ios） 1744588800
2025年左斜杠和右斜杠区别（左斜杠和右斜杠区别在哪） 1744588800
2025年你需要使用安全选项卡win10（win10提示需要进行安全扫描） 1744588800
vue2和vue3区别大吗（vue2和3什么区别） 1744588800

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们，一经查实，本站将立刻删除。
如需转载请保留出处：https://51itzy.com/kjqy/194692.html