时间:2021-05-22
如果直接从生成验证码的页面把验证码下载到本地后识别,再构造表单数据发送的话,会有一个验证码同步的问题,即请求了两次验证码,而识别出来的验证码并不是实际需要发送的验证码。有如下几种方法解决。
法1:
用session:
mysession = requests.Session()login_url = 'http://xxx.com'checkcode_url='http://yyy.com'html = mysession.get(login_url,timeout=60*4)#....balabala解析操作....checkcode = mysession.get(checkcode_url,timeout=60*4)with open('checkcode.png','wb') as f: f.write(checkcode.content) #接下来balabala对图像操作,可以用python的相关库(识别率低,教务网的验证码都够呛),也可以用云速等第三方验证码识别网站提供的有偿服务(识别度较高) #再接下来构造表单数据balabala法2:
用cookie:
#绑定cookiecheckcode_url='http://yyy.com'cookie = cookielib.CookieJar()handler = urllib2.HTTPCookieProcessor(cookie)opener = urllib2.build_opener(handler) #先读取验证码的urlpicture = opener.open(checkcode_url).read() #balabala图像处理 # 生成post数据 data = urllib.urlencode(postData)# 构造request请求request = urllib2.Request(PostUrl, data, headers)# 利用之前存有cookie的opener登录页面try: response = opener.open(request) result = response.read()except urllib2.HTTPError, e: print e.code法3:
selenium+手动构造cookie: 该方法无需识别验证码,本人尚未尝试。
webdriver 操作 cookie 的方法有:
这种方法难点在于确定该网站是用cookie中的什么key值来表示“用户名”和“密码”的。而且好像有些cookie是加密过的。可以先用get_cookies()进行观察。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
大致介绍 在python爬虫爬取某些网站的验证码的时候可能会遇到验证码识别的问题,现在的验证码大多分为四类: 1、计算验证码 2、滑块验证码 3
1、介绍在爬虫中经常会遇到验证码识别的问题,现在的验证码大多分计算验证码、滑块验证码、识图验证码、语音验证码等四种。本文就是识图验证码,识别的是简单的验证码,要
无论是是自动化登录还是爬虫,总绕不开验证码,这次就来谈谈python中光学识别验证码模块tesserocr和pytesseract。tesserocr和pyte
很多网站为了避免被恶意访问,需要设置验证码登录,避免非人类的访问,Python爬虫实现验证码登录的原理则是先到登录页面将生成的验证码保存下来,然后人为输入后,包
一、验证码示例二、php验证码类,secoder.class.php'验证码值','time'=>'验证码创建时间');*/publicstaticfuncti