时间:2021-05-20
我们都知道可以用爬虫来找寻一些想要的数据,除了可以使用python进行操作,我们最近学习的java同样也支持爬虫的运行,本篇小编就教大家用java爬虫来进行网页的解析,具体内容请往下看:
1、springboot项目,引入jsoup
<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.10.2</version></dependency>2、准备解析对象
Content.javapackage com.asia.pojo;import lombok.AllArgsConstructor;import lombok.Data;import lombok.NoArgsConstructor;@Data@NoArgsConstructor@AllArgsConstructorpublic class Content { private String title; private String img; private String price;}3、爬虫工具类
HtmlParseUtil.javapackage com.asia.utils;import java.net.URL;import java.net.URLDecoder;import java.util.ArrayList;import java.util.List;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;import com.asia.pojo.Content;public class HtmlParseUtil {public static void main(String[] args) throws Exception {new HtmlParseUtil().parseJD("西瓜").forEach(System.out::println);}public List<Content> parseJD(String keywords) throws Exception {String url = "https://search.jd.com/Search?keyword=" + URLDecoder.decode(keywords, "GBK");// 解析网页.(Jsoup返回Document就是浏览器的Document对象)Document document = Jsoup.parse((new URL(url)), 30000);Element element = document.getElementById("J_goodsList");Elements elements = element.getElementsByTag("li");List<Content> list = new ArrayList<Content>();for (Element el : elements) {String src = el.getElementsByTag("img").eq(0).attr("data-lazy-img");String price = el.getElementsByClass("p-price").eq(0).text();String name = el.getElementsByClass("p-name").eq(0).text();list.add(new Content(name, src, price));}return list;}}到此这篇关于Java中用爬虫进行解析的实例方法的文章就介绍到这了,更多相关Java中如何使用爬虫进行解析内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
本文实例讲述了Python爬虫DNS解析缓存方法。分享给大家供大家参考,具体如下:前言:这是Python爬虫中DNS解析缓存模块中的核心代码,是去年的代码了,现
目前市面上流行的爬虫以python居多,简单了解之后,觉得简单的一些页面的爬虫,主要就是去解析目标页面(html)。那么就在想,java有没有用户方便解析htm
Java爬虫工具Jsoup详解Jsoup是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,
本篇博文主要讲解Python爬虫实例,重点包括爬虫技术架构,组成爬虫的关键模块:URL管理器、HTML下载器和HTML解析器。爬虫简单架构程序入口函数(爬虫调度
使用jsoup工具可以解析某个URL地址、HTML文本内容,是java爬虫很好的优势,也是我们在网络爬虫不可缺少的工具。本文小编带领大家使用jsoup实现jav