时间:2021-05-23
python 爬虫解决403禁止访问错误
在Python写爬虫的时候,html.getcode()会遇到403禁止访问的问题,这是网站对自动化爬虫的禁止,要解决这个问题,需要用到python的模块urllib2模块
urllib2模块是属于一个进阶的爬虫抓取模块,有非常多的方法,比方说连接url=//patible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)" ] def get_content(url,headers): ''''' @获取403禁止访问的网页 ''' randdom_header=random.choice(headers) req=urllib2.Request(url) req.add_header("User-Agent",randdom_header) req.add_header("Host","blog.csdn.net") req.add_header("Referer","//www.jb51.net/") req.add_header("GET",url) content=urllib2.urlopen(req).read() return content print get_content(url,my_headers)
其中用到了random随机函数,自动获取已经写好的浏览器类型的User-Agent信息,在自定义函数中需要写出自己的Host,Referer,GET信息等,解决这几个问题,就可以顺利访问了,不再出现403访问的信息。
当然如果访问频率过快的话,有些网站还是会过滤的,解决这个需要用到代理IP的方法。。。具体的自己解决
感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
斗鱼tv出现403禁止访问解决办法·403-禁止访问:IIS定义了许多不同的403错误,它们指明更为具体的错误原因:·403.1-执
手机403的意思就是被禁止了,就是说没有权限访问此站。访问时出现403Forbidden错误的原因: 1、IP被列入黑名单。 2、在一定时间内过多地访问此网
1.服务器错误:爬虫发起抓取,httpcode返回码是5XX;2.访问被拒绝:爬虫发起抓取,httpcode返回码是403;3.找不到页面:爬虫发起抓取,htt
自定义模板403403-禁止访问HTTP403-禁止访问404404-无法找到文件HTTP404-无法找到文件500500-服务器错误HTTP500-内部服务器
Nginx也是当前流行的一款轻量级服务器在日常使用中呢也会出现一些问题今天学习君在安装配置Nginx的时候就出现了403Forbindden的被禁止访问的错误网