时间:2021-05-22
学了python后,之前一些我们常用的方法,也可以换一种思路用python中的知识来解决。相信操作出来后,能收获一大批小粉丝们。就像我们没学习编程之前,看到那种大神都是可望而不可即。今天我们就之前简单获取网页的这种操作用python中的编码来解决,大家可以自行体会一下两者的不同。
1.encoding和apparent_encoding
import scrapyurl="https://www.xxx.net/html/gndy/dyzz/index.html"re=requests.get(url)#获取响应头Content-Type的charset值,有的网站没有charset字段,就可能使用默认的 ISO-8859-1print(re.encoding)#apparent_encoding就是获取网站真实的编码print(re.apparent_encoding)2. 处理方案
直接用r.encoding = ‘xxx'
re.encoding='utf-8'3. requests的text() 跟 content() 有什么区别
re.text返回的是处理过的Unicode型的数据,
而使用re.content返回的是bytes型的原始数据。
4. 爬虫拿到的HTML和浏览器中的源码不相同时
通过下载源码对比
import requestsurl = 'https://www.xxx.net/html/gndy/dyzz/index.html'r = requests.get(url)r.encoding = r.apparent_encodinghtml = r.textwith open('test.html','w',encoding='utf8') as f:f.write(html)到此这篇关于python3中编码获取网页的实例方法的文章就介绍到这了,更多相关python3中编码如何获取网页内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
由于imwrite前使用编码在python3中已经不适用,可用imencode代替,以下代码是从视频中获取第2帧保存在中文文件夹下的实例:cap=cv2.Vid
前言在Python中,我们通常使用urllib中的urlencode方法将字典编码,用于提交数据给url等操作,但是在Python2和Python3中urlli
python解释器默认编码(python2与python3的区别一)python2解释器默认编码:asciipython3解释器默认编码:utf-8输入(pyt
python获取网页编码方式实现代码python开发,自动化获取网页编码方式用到了chardet库,字符集检测,这个类在python2.7中没有,需要在官网上下
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2),所以我用Python3的语法写了一个