Java爬取豆瓣电影数据的方法详解

时间：2021-05-19

本文实例讲述了Java爬取豆瓣电影数据的方法。分享给大家供大家参考，具体如下：

所用到的技术有Jsoup，HttpClient。

Jsoup

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

HttpClient

HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源。虽然在 JDK 的 java net包中已经提供了访问 HTTP 协议的基本功能，但是对于大部分应用程序来说，JDK 库本身提供的功能还不够丰富和灵活。HttpClient 是 Apache Jakarta Common 下的子项目，用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。

爬取豆瓣电影数据

豆瓣电影网址。

https://movie.douban.com/explore#!type=movie&tag=热门&sort=recommend&page_limit=20&page_start=0

打开浏览器f12，地址栏中输入该地址访问，可以看到请求响应的页面，对应可以找到电影数据的请求地址，数据请求地址

https://movie.douban.com/j/search_subjects?type=movie&tag=热门&sort=recommend&page_limit=20&page_start=0

可以看到数据请求地址响应过来的是一个JSON格式的数据，之后我们看到请求地址上的参数type=movie&tag=热门&sort=recommend&page_limit=20&page_start=0。其中type是电影tag是标签，sort是按照热门进行排序的,page_limit是每页20条数据,page_start是从第几条数据开始查询（下标从0开始）。但是这不是我们想要的,我们需要去找豆瓣电影数据的总入口地址是下面这个

https://movie.douban.com/j/search_subjects

创建SpringBoot项目爬取数据

把爬取到的数据保存到数据库中，电影图片保存在本地磁盘中，这里持久层用的是JPA，所以需要引入对应的依赖。pom.xml中依赖代码如下。

<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:///machaoyin/crawler-douban

有什么问题欢迎下方留言交流。

更多关于java相关内容感兴趣的读者可查看本站专题：《Java网络编程技巧总结》、《Java Socket编程技巧总结》、《Java文件与目录操作技巧汇总》、《Java数据结构与算法教程》、《Java操作DOM节点技巧总结》和《Java缓存操作技巧汇总》

希望本文所述对大家java程序设计有所帮助。

Java爬取豆瓣电影数据的方法详解

相关文章

Python实现的爬取豆瓣电影信息功能案例

Python利用Scrapy框架爬取豆瓣电影示例

python爬虫 基于requests模块发起ajax的get请求实现解析

python爬取豆瓣电影排行榜(requests)的示例代码

Java基于WebMagic爬取某豆瓣电影评论的实现

python爬虫基于requests模块发起ajax的get请求实现解析