Python urllib request模块发送请求实现过程解析

时间：2021-05-22

1.Request()的参数

import urllib.request

request=urllib.request.Request('https://python.org')
response=urllib.request.urlopen(request)
print(response.read().decode('utf-8'))

通过构造这个数据结构，一方面可以我们可以将请求独立成一个对象，另一方面可以更加丰富和灵活地配置参数。

它的构造方法如下：

class.urllib.request.Request(url,data=None,headers={},origin_rep_host=None,unverifiable=False,method=None)

参数：

1.url必传参数

2.data，必须传bytes类型。如果是字典，先使用urllib.parse里的urlencode()

3.headers，是一个字典，请求头，直接构造或者用add_header()方法添加

4.origin_rep_host，请求方的名称或者ip地址

5.unverifiable，默认为false，表示这个请求是否无法验证。如果没有抓取的权限，此时值就是true。

6.method，用来指示请求使用的方法。

尝试传入多个参数构建请求：

from urllib import request,parseurl='http://httpbin.org/post'headers={ 'Url-Agent':'Mozilla/4.0(compatible;MSIE 5.5;Windows NT)', 'Host':'httpbin.org'}#也可以使用add_header()方法添加headers：#req=request.Request(url=url,data=data,method='POST')#req.add_header('User-Agent','Mozilla/4.0(compatible;MSIE 5.5;Windows NT)')dict={ 'name':'Germey'}data=bytes(parse.urlencode(dict),encoding='utf-8')#用urlencode()将dict转换成bytes类型，传递给datareq=request.Request(url=url,data=data,headers=headers,method='POST')response=request.urlopen(req)print(response.read().decode('utf-8'))

运行结果：

2.Handler与Opener

Handler：

它是各种处理器，几乎可以做到HTTP请求中的所有事情。

urllib.request模块里的BaseHandler类，它是所有其他Headler的父类，它提供了最基本的方法。

Opener：

例如urlopen()就是一个Opener，它是urllib为我们提供的。

它们的关系是：使用Handler来构建Opener。

3.用法

验证：

创建一个需要验证的网站，我这里使用的是IIS

遇到的问题：

IIS怎样安装与配置-百度经验 (baidu.com)

IIS网站如何设置基本身份验证-百度经验 (baidu.com)

window10家庭版解决IIS中万维网服务的安全性中无Windows身份验证 - enjoryWeb - 博客园 (cnblogs.com)

代码：

from urllib.request import HTTPPasswordMgrWithDefaultRealm,HTTPBasicAuthHandler,build_openerfrom urllib.error import URLErrorusername='username'#填上自己的用户名和密码password='password'url='http://localhost:5000/'p=HTTPPasswordMgrWithDefaultRealm()p.add_password(None,url,username,password)#添加用户名和密码，建立了一个处理验证的Handlerauth_handler=HTTPBasicAuthHandler(p)#基本认证opener=build_opener(auth_handler)#利用Handler构建一个Openertry: result=opener.open(url)#打开链接 html=result.read().decode('utf-8') print(html)#结果打印html源码内容except URLError as e: print(e.reason)

代理：

添加代理，在本地搭建一个代理，运行在9743端口上。

代码：

from urllib.request import ProxyHandler,build_openerfrom urllib.error import URLErrorproxy_handler=ProxyHandler({ 'http':'http://127.0.0.1:9743', 'https':'https://127.0.0.1:9743'})#构建一个Handleropener=build_opener(proxy_handler)#构建一个Openertry: response=opener.open('https://')
print(response.read().decode('utf-8'))

运行结果：输出网页源代码。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

Python urllib request模块发送请求实现过程解析

相关文章

python urllib库的使用详解

Python3爬虫发送请求的知识点实例

Python爬虫实现HTTP网络请求多种实现方式

Python实现爬虫设置代理IP和伪装成浏览器的方法分享

详解python内置模块urllib