python爬虫 urllib模块url编码处理详解

时间:2021-05-22

案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为‘周杰伦'的页面数据)

import urllib.request# 1.指定urlurl = 'https:///web?query='# url的特性:url不可以存在非ASCII编码字符数据word = urllib.parse.quote("周杰伦")# 将编码后的数据值拼接回url中url = url+word # 有效url'''2.发起请求:使用urlopen函数对指定的url发起请求,该函数返回一个响应对象,urlopen代表打开url'''response = urlopen(url=url)# 3.获取响应对象中的页面数据:read函数可以获取响应对象中存储的页面数据(byte类型的数据值)page_text = response.read()# 4.持久化存储:将爬取的页面数据写入文件进行保存with open("周杰伦.html","wb") as f: f.write(page_text)print("写入数据成功")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。

声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。

相关文章