Python 爬虫学习笔记之多线程爬虫

时间：2021-05-22

XPath 的安装以及使用

1 . XPath 的介绍

刚学过正则表达式，用的正顺手，现在就把正则表达式替换掉，使用 XPath，有人表示这太坑爹了，早知道刚上来就学习 XPath 多省事啊。其实我个人认为学习一下正则表达式是大有益处的，之所以换成 XPath ，我个人认为是因为它定位更准确，使用更加便捷。可能有的人对 XPath 和正则表达式的区别不太清楚，举个例子来说吧，用正则表达式提取我们的内容，就好比说一个人想去天安门，地址的描述是左边有一个圆形建筑，右边是一个方形建筑，你去找吧，而使用 XPath 的话，地址的描述就变成了天安门的具体地址。怎么样？相比之下，哪种方式效率更高，找的更准确呢？

2 . XPath 的安装

XPath 包含在 lxml 库中，那么我们到哪里去下载呢？点击此处，进入网页后按住 ctrl+f 搜索 lxml ，然后进行下载，下载完毕之后将文件拓展名改为 .zip ，然后进行解压，将名为 lxml 的文件夹复制粘贴到 Python 的 Lib 目录下，这样就安装完毕了。

3 . XPath 的使用

为了方便演示，我利用 Html 写了个简单的网页，代码如下所示（为了节省时间，方便小伙伴们直接进行测试，可直接复制粘贴我的代码）

<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>Test Html</title></head><body><div id="content"> <ul id="like"> <li>like one</li> <li>like two</li> <li>like three</li> </ul> <ul id="hate"> <li>hate one</li> <li>hate two</li> <li>hate three</li> </ul> <div id="url"> <a href="http:///?key=Java&act=input&page_index=1' urls = changepage(url, 80) time1 = time.time() pool.map(spider, urls) pool.close() pool.join() f.close() print '爬取成功！' time2 = time.time() print '多线程耗时 : ' + str(time2 - time1) + 's' # time1 = time.time() # for each in urls: # spider(each) # time2 = time.time() # f.close() # print '单线程耗时 : ' + str(time2 - time1) + 's'

可见，以上代码中的知识，我们都在介绍 XPath 和并行化中做了详细的介绍，所以阅读起来十分轻松。

好了，到今天为止，Python 爬虫相关系列的文章到此结束，谢谢你的观看。

Python 爬虫学习笔记之多线程爬虫

相关文章

Python多线程爬虫实战_爬取糗事百科段子的实例

Python使用xpath实现图片爬取

python支持多线程的爬虫实例

python爬虫开发之使用Python爬虫库requests多线程抓取猫眼电影TOP100实例

python多线程+代理池爬取天天基金网、股票数据过程解析