零基础写Java知乎爬虫之先拿百度首页练练手

时间：2021-05-19

上一集中我们说到需要用Java来制作一个知乎爬虫，那么这一次，我们就来研究一下如何使用代码获取到网页的内容。

首先，没有HTML和CSS和JS和AJAX经验的建议先去W3C（点我点我）小小的了解一下。

说到HTML，这里就涉及到一个GET访问和POST访问的问题。

如果对这个方面缺乏了解可以阅读W3C的这篇：《GET对比POST》。

啊哈，在此不再赘述。

然后咧，接下来我们需要用Java来爬取一个网页的内容。

这时候，我们的百度就要派上用场了。

没错，他不再是那个默默无闻的网速测试器了，他即将成为我们的爬虫小白鼠！~

我们先来看看百度的首页：

相信大家都知道，现在这样的一个页面，是HTML和CSS共同工作的结果。

我们在浏览器中右击页面，选择“查看页面源代码”：

没错，就是这一坨翔一样的东西。这就是百度页面的源代码。

接下来我们的任务，就是使用我们的爬虫也获取到一样的东西。

先来看一段简单的源码：

import java.io.*;
import java.net.*;
public class Main {
public static void main(String[] args) {
// 定义即将访问的链接
String url = "http://";
// 访问链接并获取页面内容
String result = SendGet(url);
// 使用正则匹配图片的src内容
String imgSrc = RegexString(result, "src=\"(.+?)\"");
// 打印结果
System.out.println(imgSrc);
}
}

这样我们就能用java抓出百度LOGO的链接了。

好吧虽然花了很多时间讲百度，但是基础要打扎实啦，下次我们正式开始抓知乎咯！~

零基础写Java知乎爬虫之先拿百度首页练练手

相关文章

百度战略投资知乎 知乎问答内容接入百度App

使用Python的urllib和urllib2模块制作爬虫的实例教程

Python3实战之爬虫抓取网易云音乐的热门评论

百度NLP专家李大任加盟知乎 出任技术副总裁

Python 冒泡，选择，插入排序使用实例

百度战略投资知乎知乎问答内容接入百度App

百度NLP专家李大任加盟知乎出任技术副总裁