Python爬虫之urllib基础用法教程

时间：2021-05-22

综述

本系列文档用于对Python爬虫技术进行简单的教程讲解，巩固自己技术知识的同时，万一一不小心又正好对你有用那就更好了。

Python 版本是3.7.4

urllib库介绍

它是 Python 内置的HTTP请求库，也就是说我们不需要额外安装即可使用，它包含四个模块(主要对前三个模块进行学习)：

request : 它是最基本的 HTTP 请求模块，我们可以用它来模拟发送一请求，就像在浏览器里输入网址然后敲击回车一样，只需要给库方法传入 URL 还有额外的参数，就可以模拟实现这个过程了。
error : 异常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作保证程序不会意外终止。
parse : 用于解析URL，提供了许多URL处理方法，比如拆分、解析、合并等等的方法，以及对参数的拼接等待。
robotparser : 主要是用来识别网站的robots.txt协议文件，然后判断网站的那些数据可以爬，哪些数据不可以爬的，其实用的比较少。

urllib.request 介绍

urlopen()

1.参数说明(仅写了四个最常用的参数)

url : 爬取目标的URL；
data : 请求参数，如果设置该参数，则请求默认为post请求；没有默认为get请求；
timeout : 用于设置超时时间，单位为秒；
context : 必须是一个ssl.SSLContext类型,用来指定SSL设置,忽略未认证的CA证书;

2.具体用法

GET 请求方式

# 导入urllib库import urllib.request # 向指定的url发送请求，并返回服务器响应的类文件对象 url = "http:///156427/100' # 捕获异常 try: ret = urllib.request.urlopen(url) print(ret) except urllib.error.HTTPError as e: print(e.getcode()) except urllib.error.URLError as e: print(e)

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

Python爬虫之urllib基础用法教程

相关文章

使用Python编写爬虫的基本模块及框架使用指南

使用Python的urllib和urllib2模块制作爬虫的实例教程

Python urllib.request对象案例解析

Python中使用urllib2模块编写爬虫的简单上手示例

python爬虫系列网络请求案例详解