python3制作捧腹网段子页爬虫

时间：2021-05-22

0x01

春节闲着没事(是有多闲)，就写了个简单的程序，来爬点笑话看，顺带记录下写程序的过程。第一次接触爬虫是看了这么一个帖子，一个逗逼，爬取煎蛋网上妹子的照片，简直不要太方便。于是乎就自己照猫画虎，抓了点图片。

科技启迪未来，身为一个程序员，怎么能干这种事呢，还是爬点笑话比较有益于身心健康。

0x02

在我们撸起袖子开始搞之前，先来普及点理论知识。

简单地说，我们要把网页上特定位置的内容，扒拉下来，具体怎么扒拉，我们得先分析这个网页，看那块内容是我们需要的。比如，这次爬取的是捧腹网上的笑话，打开捧腹网段子页我们可以看到一大堆笑话，我们的目的就是获取这些内容。看完回来冷静一下，你这样一直笑，我们没办法写代码。在 chrome 中，我们打开审查元素然后一级一级的展开 HTML 标签，或者点击那个小鼠标，定位我们所需要的元素。

最后可以发现 <div> 中的内容就是我们所需要的笑话，在看第二条笑话，也是这样。于是乎，我们就可以把这个网页中所有的 <div> 找到，然后把里边的内容提取出来，就完成了。

0x03

好了，现在我们知道我们的目的了，就可以撸起袖子开始干了。这里我用的 python3，关于 python2 和 python3 的选用，大家可以自行决定，功能都可以实现，只是有些许不同。但还是建议用 python3。
我们要扒拉下我们需要的内容，首先我们得把这个网页扒拉下来，怎么扒拉呢，这里我们要用到一个库，叫 urllib，我们用这个库提供的方法，来获取整个网页。
首先，我们导入 urllib

复制代码代码如下:import urllib.request as request

然后，我们就可以使用 request 来获取网页了，

复制代码代码如下: def getHTML(url):
return request.urlopen(url).read()

人生苦短，我用 python，一行代码，下载网页，你说，还有什么理由不用 python。
下载完网页后，我们就得解析这个网页了来获取我们所需要的元素。为了解析元素，我们需要使用另外一个工具，叫做 Beautiful Soup，使用它，可以快速解析 HTML 和 XML并获取我们所需要的元素。

复制代码代码如下: soup = BeautifulSoup(getHTML("http:///8hr/page/%d/?s=4952526' % x for x in get_qiubai_results(url): print(x + '\n\n') returnif __name__ == '__main__': get_pengfu_joke() get_qiubai_joke()

python3制作捧腹网段子页爬虫

相关文章

python3第三方爬虫库BeautifulSoup4安装教程

Python3简单爬虫抓取网页图片代码实例

python3爬虫之入门基础和正则表达式

python3实现表白神器

CentOS中安装python3.8.2的详细教程