时间:2021-05-22
案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为‘周杰伦'的页面数据)
import urllib.request# 1.指定urlurl = 'https:///web?query='# url的特性:url不可以存在非ASCII编码字符数据word = urllib.parse.quote("周杰伦")# 将编码后的数据值拼接回url中url = url+word # 有效url'''2.发起请求:使用urlopen函数对指定的url发起请求,该函数返回一个响应对象,urlopen代表打开url'''response = urlopen(url=url)# 3.获取响应对象中的页面数据:read函数可以获取响应对象中存储的页面数据(byte类型的数据值)page_text = response.read()# 4.持久化存储:将爬取的页面数据写入文件进行保存with open("周杰伦.html","wb") as f: f.write(page_text)print("写入数据成功")以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
python中使用requests模块http请求时,发现中文参数不会自动的URL编码,并且没有找到类似urllib(python3)模块中urllib.par
urllib是python的内置模块,主要用于处理url相关的一些操作,例如访问url、解析url等操作。urllib包下面的request模块主要用于访问ur
基本模块python爬虫,webspider。爬取网站获取网页数据,并进行分析提取。基本模块使用的是urllib,urllib2,re,等模块基本用法,例子:(
发现问题Python中的urllib模块用来处理url相关的操作,unquote方法对应javascript中的urldecode方法,它对url进行解码,把类
相关:urllib是python内置的http请求库,本文介绍urllib三个模块:请求模块urllib.request、异常处理模块urllib.error、