时间:2021-05-19
maven引入获取编码的jar
<dependency> <groupId>com.ibm.icu</groupId> <artifactId>icu4j</artifactId> <version>67.1</version> </dependency>获取文件编码
package com.lovnx.note.util;import com.ibm.icu.text.CharsetDetector;import com.ibm.icu.text.CharsetMatch;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.select.Elements; import java.io.IOException;import java.net.URL;import java.nio.file.Files;import java.nio.file.Path;import java.nio.file.Paths; /** * @author @256g的胃 * @ClassName HtmlParse * @Description * @Date 15:32 2020/7/9 **/public class HtmlParse { public static String getEncode(String filePath) throws IOException { Path path = Paths.get(filePath); byte[] data = Files.readAllBytes(path); CharsetDetector detector = new CharsetDetector(); detector.setText(data); CharsetMatch match = detector.detect(); String encoding = match.getName(); System.out.println("The Content in " + match.getName()); return encoding; } public static void main(String[] args) throws Exception { System.out.println(HtmlParse.getEncode("/Users/cxt/Downloads/test.html")); }}上面获取文件编码是为了在服务器根据文件流下载文件时防止文件乱码直接指定编码格式,然后再根据下载下来的文件识别纯文本
Document doc = Jsoup.parse("读取的文本字符串,此处应该是带html标签的");
String text = doc.text();
jsoup也支持 直接指定文件的形式去获取纯文本
参考 https://jsoup.org/
补充知识:java 解析html/读取html内容
jsoup
String 转化
1、Document doc = Jsoup.parse(html);
例如:
String html = "<html><head><title>First parse</title></head>" + "<body><p>Parsed HTML into a doc.</p></body></html>"; Document doc = Jsoup.parse(html); System.out.println(doc.text()); ;常用api
2、获取节点文本:Document.text();
以上这篇java获取文件编码,jsoup获取html纯文本操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
Java爬虫工具Jsoup详解Jsoup是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,
使用jsoup工具可以解析某个URL地址、HTML文本内容,是java爬虫很好的优势,也是我们在网络爬虫不可缺少的工具。本文小编带领大家使用jsoup实现jav
1.jsoup介绍很多时候,我们需要从各种网页上面抓取数据,而jsoup是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套
一、Jsoup爬虫jsoup是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类
复制代码代码如下:/**Java文件操作获取文件扩展名**/publicstaticStringgetExtensionName(Stringfilename)