python爬虫之urllib,伪装,超时设置,异常处理的方法

时间：2021-05-22

Urllib

1. Urllib.request.urlopen().read().decode()

返回一个二进制的对象，对这个对象进行read()操作，可以得到一个包含网页的二进制字符串，然后用decode()解码成html源码

2. urlretrieve()

将一个网页爬取到本地

3. urlclearup()

清除 urlretrieve()所产生的缓存

4. info()

返回一个httpMessage对象，表示远程服务器的头信息

5. getcode()

获取当前网页的状态码 200代表成功，404网页未找到

6. geturl()

获取当前爬取页面的网址

示例：

from urllib import request# urlretrieve() -- 将一个网页爬取到本地request.urlretrieve("http://").read() print(data)except error.URLError as e: # 进行异常的处理 if hasattr(e,"code"): # 判断是否有状态码 print(e.code) # 状态码 if hasattr(e,"reason"): # 判断是否有异常原因 print(e.reason) # 异常原因

以上这篇python爬虫之urllib,伪装,超时设置,异常处理的方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

声明：本页内容来源网络，仅供用户参考；我单位不保证亦不表示资料全面及准确无误，也不保证亦不表示这些资料为最新信息，如因任何原因，本网内容或者用户因倚赖本网内容造成任何损失或损害，我单位将不会负任何法律责任。如涉及版权问题，请提交至online#300.cn邮箱联系删除。

python爬虫之urllib,伪装,超时设置,异常处理的方法

相关文章

Python实现爬虫设置代理IP和伪装成浏览器的方法分享

python urllib库的使用详解

Python中使用urllib2模块编写爬虫的简单上手示例

python 爬虫基本使用——统计杭电oj题目正确率并排序

使用Python编写爬虫的基本模块及框架使用指南