python urllib爬虫模块使用解析

时间：2021-05-22

前言

网络爬虫也称为网络蜘蛛、网络机器人，抓取网络的数据。其实就是用Python程序模仿人点击浏览器并访问网站，而且模仿的越逼真越好。一般爬取数据的目的主要是用来做数据分析，或者公司项目做数据测试，公司业务所需数据。

而数据来源可以来自于公司内部数据，第三方平台购买的数据，还可以通过网络爬虫爬取数据。python在网络爬虫方向上有着成熟的请求、解析模块，以及强大的Scrapy网络爬虫框架。

爬虫分类

1、通用网络爬虫：搜索引擎使用，遵守robots协议（君子协议）

robots协议：网站通过robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。https:///f?kw={}&pn={}' self.headers = {'User-Agent':'Mozilla/5.0'} # 获取响应 def get_page(self,url): req = request.Request(url=url,headers=self.headers) res = request.urlopen(req) html = res.read().decode('utf-8') return html # 保存数据 def write_page(self,filename,html): with open(filename,'w') as f: f.write(html) # 主函数 def main(self): name = input('请输入贴吧名:') start = int(input('请输入起始页:')) end = int(input('请输入终止页:')) # 拼接URL地址,发请求 for page in range(start,end+1): pn = (page-1)*50 kw = parse.quote(name) # url编码 url = self.url.format(kw,pn) html = self.get_page(url) # 获取响应,并保存 filename = '{}-第{}页.html'.format(name,page) self.write_page(filename,html) print('第{}页爬取成功'.format(page)) # 提示进度 time.sleep(random.randint(1,3)) # 控制爬取速度if __name__ == '__main__': spider = BaiduSpider() spider.main()

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

python urllib爬虫模块使用解析

相关文章

使用Python编写爬虫的基本模块及框架使用指南

python 爬虫基本使用——统计杭电oj题目正确率并排序

详解python内置模块urllib

Python实现爬虫设置代理IP和伪装成浏览器的方法分享

Python中使用urllib2模块编写爬虫的简单上手示例