python 爬虫出现403禁止访问错误详解

时间：2021-05-23

python 爬虫解决403禁止访问错误

在Python写爬虫的时候，html.getcode()会遇到403禁止访问的问题，这是网站对自动化爬虫的禁止，要解决这个问题，需要用到python的模块urllib2模块

urllib2模块是属于一个进阶的爬虫抓取模块，有非常多的方法，比方说连接url=//patible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)" ] def get_content(url,headers): ''''' @获取403禁止访问的网页 ''' randdom_header=random.choice(headers) req=urllib2.Request(url) req.add_header("User-Agent",randdom_header) req.add_header("Host","blog.csdn.net") req.add_header("Referer","//www.jb51.net/") req.add_header("GET",url) content=urllib2.urlopen(req).read() return content print get_content(url,my_headers)

其中用到了random随机函数，自动获取已经写好的浏览器类型的User-Agent信息，在自定义函数中需要写出自己的Host,Referer,GET信息等，解决这几个问题，就可以顺利访问了，不再出现403访问的信息。

当然如果访问频率过快的话，有些网站还是会过滤的，解决这个需要用到代理IP的方法。。。具体的自己解决

感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

声明：本页内容来源网络，仅供用户参考；我单位不保证亦不表示资料全面及准确无误，也不保证亦不表示这些资料为最新信息，如因任何原因，本网内容或者用户因倚赖本网内容造成任何损失或损害，我单位将不会负任何法律责任。如涉及版权问题，请提交至online#300.cn邮箱联系删除。

python 爬虫出现403禁止访问错误详解

相关文章

斗鱼tv出现403禁止访问怎么办 斗鱼tv出现403禁止访问的原因详解

手机如何解决403

百度网页抓取异常功能新增显示四大数据

Django自定义全局403、404、500错误页面的示例代码

详解Nginx 出现 403 Forbidden 的解决办法

斗鱼tv出现403禁止访问怎么办斗鱼tv出现403禁止访问的原因详解