时间:2021-05-23
所谓爬虫,就是按照一定的规则,自动的从网络中抓取信息的程序或者脚本。万维网就像一个巨大的蜘蛛网,我们的爬虫就是上面的一个蜘蛛,不断的去抓取我们需要的信息。
当人类去访问一个网页时,是如何进行的?
①打开浏览器,输入要访问的网址,发起请求。
②等待服务器返回数据,通过浏览器加载网页。
③从网页中找到自己需要的数据(文本、图片、文件等等)。
④保存自己需要的数据。
对于爬虫,也是类似的。它模仿人类请求网页的过程,但是又稍有不同。
首先,对应于上面的①和②步骤,我们要利用python实现请求一个网页的功能。
其次,对应于上面的③步骤,我们要利用python实现解析请求到的网页的功能。
最后,对于上面的④步骤,我们要利用python实现保存数据的功能。
因为是讲一个简单的爬虫嘛,所以一些其他的复杂操作这里就不说了。下面,针对上面几个功能,逐一进行分析。
作为一门拥有丰富类库的编程语言,利用python请求网页完全不在话下。这里推荐一个非常好用的类库urllib.request。
urllib库使用
import urllib.request response = urllib.request.urlopen('https://laoniu.blog.csdn.net/')print(response.read().decode('utf-8'))这样就可以抓取csdn我的主页的html文档
我们使用爬虫就是需要在网页中提取我们需要的数据,接下来我们来学习抓取一下百度搜索页的热榜数据
使用lxml库
lxml 是一种使用 Python 编写的库,可以迅速、灵活地处理 XML 和 HTML。
它支持 XML Path Language (XPath) 和 Extensible Stylesheet Language Transformation (XSLT),并且实现了常见的 ElementTree API。
安装
windows下安装
#pip方式安装pip3 install lxml #wheel方式安装 #下载对应系统版本的wheel文件:http://.cn/xpath/index.asp爬虫三要素,抓取数据完成了,剩余的分析与存储就先不说了
到此这篇关于Python爬虫新手入门之初学lxml库的文章就介绍到这了,更多相关Python爬虫入门之lxml库内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
初学者淘宝钻展新手入门必会:3个情景玩法攻略打穿总流量!关键字:淘宝钻展新手入门初学者必会引流维护保养老客户可用领域:全领域店家等级:1钻及之上引言:都说淘宝钻
现如今谈起初学者开淘宝店新手入门基本?开淘宝店必须学习什么专业知识?最先、假如想开淘宝店在你决策新手入门以前,也有好多个难题要思索,由于搞好淘宝网并并不是一朝一
淘客怎么做推广?许多初学者刚新手入门的淘客还不清楚,我发送给大伙儿共享下淘客推广基础教程(文图),有想要做淘客推广的看这里。许多盆友对淘客的新手入门或是一知半解
这是Java网络爬虫系列博文的第二篇,在上一篇Java网络爬虫新手入门详解中,我们简单的学习了一下如何利用Java进行网络爬虫。在这一篇中我们将简单的聊一聊在网
开直播这一领域的新手入门门坎很低,网络主播很容易新手入门,只需一部手机、一个手机耳机再加上互联网就可以逐渐本人直播间了。那麼开直播怎么挣钱?初学者主播怎么做才受