首先引入依赖:
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.12.1</version> </dependency>
讯享网
讯享网import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.IOException; public class Crawling {
public static void main(String[] args) throws IOException {
for (int i = 0; i < 10; i++) {
int page = i * 25; Document document = Jsoup.connect("https://movie.douban.com/top250?start=" + page).userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:60.0) Gecko/ Firefox/60.0").timeout(6000).get(); Elements items = document.getElementsByClass("item"); for (Element item : items) {
String num = item.getElementsByTag("em").get(0).text(); String title = item.getElementsByClass("hd").get(0).getElementsByTag("span").get(0).text(); String bd = item.getElementsByClass("bd").get(0).getElementsByTag("p").get(0).html(); bd = bd.replaceAll(" "," "); //导演: 弗兰克·德拉邦特 Frank Darabont 主演: 蒂姆·罗宾斯 Tim Robbins /...<br> 1994 / 美国 / 犯罪 剧情 //导演: 吕克·贝松 Luc Besson 主演: 让·雷诺 Jean Reno / 娜塔莉·波特曼 ...<br> 1994 / 法国 美国 / 剧情 动作 犯罪 String ratingNum = item.getElementsByClass("rating_num").get(0).text(); String quote = ""; if (item.getElementsByClass("quote").size() > 0) {
quote = item.getElementsByClass("quote").get(0).text(); } System.out.println("电影名次: " + num); System.out.println("电影标题: " + title); System.out.println(bd); System.out.println("电影评分: " + ratingNum); System.out.println("电影简评: " + quote); System.out.println("============================================"); } } } }
效果:

讯享网

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/54348.html