时间:2021-05-23
1、介绍
在爬虫中经常会遇到验证码识别的问题,现在的验证码大多分计算验证码、滑块验证码、识图验证码、语音验证码等四种。本文就是识图验证码,识别的是简单的验证码,要想让识别率更高,识别的更加准确就需要花很多的精力去训练自己的字体库。
识别验证码通常是这几个步骤:
(1)灰度处理
(2)二值化
(3)去除边框(如果有的话)
(4)降噪
(5)切割字符或者倾斜度矫正
(6)训练字体库
(7)识别
这6个步骤中前三个步骤是基本的,4或者5可根据实际情况选择是否需要。
经常用的库有pytesseract(识别库)、OpenCV(高级图像处理库)、imagehash(图片哈希值库)、numpy(开源的、高性能的Python数值计算库)、PIL的 Image,ImageDraw,ImageFile等。
2、实例
以某网站登录的验证码识别为例:具体过程和上述的步骤稍有不同。
首先分析一下,验证码是由4个从0到9等10个数字组成的,那么从0到9这个10个数字没有数字只有第一、第二、第三和第四等4个位置。那么计算下来共有40个数字位置,如下:
那么接下来就要对验证码图片进行降噪、分隔得到上面的图片。以这40个图片集作为基础。
对要验证的验证码图片进行降噪、分隔后获取四个类似上面的数字图片、通过和上面的比对就可以知道该验证码是什么了。
以上面验证码2837为例:
1、图片降噪
2、图片分隔
3、图片比对
通过比验证码降噪、分隔后的四个数字图片,和上面的40个数字图片进行哈希值比对,设置一个误差,max_dif:允许最大hash差值,越小越精确,最小为0。
这样四个数字图片通过比较后获取对应是数字,连起来,就是要获取的验证码。
完整代码如下:
#coding=utf-8importosimportrefromseleniumimportwebdriverfromselenium.webdriver.common.keysimportKeysimporttimefromselenium.webdriver.common.action_chainsimportActionChainsimportcollectionsimportmongoDbBaseimportnumpyimportimagehashfromPILimportImage,ImageFileimportdatetimeclassfinalNews_IE:def__init__(self,strdate,logonUrl,firstUrl,keyword_list,exportPath,codepath,codedir):self.iniDriver()self.db=mongoDbBase.mongoDbBase()self.date=strdateself.firstUrl=firstUrlself.logonUrl=logonUrlself.keyword_list=keyword_listself.exportPath=exportPathself.codedir=codedirself.hash_code_dict={}forfinrange(0,10):forlinrange(1,5):file=os.path.join(codedir,"codeLibrary\code"+str(f)+'_'+str(l)+".png")#print(file)hash=self.get_ImageHash(file)self.hash_code_dict[hash]=str(f)definiDriver(self):#通过配置文件获取IEDriverServer.exe路径IEDriverServer="C:\ProgramFiles\InternetExplorer\IEDriverServer.exe"os.environ["webdriver.ie.driver"]=IEDriverServerself.driver=webdriver.Ie(IEDriverServer)defWriteData(self,message,fileName):fileName=os.path.join(os.getcwd(),self.exportPath+'/'+fileName)withopen(fileName,'a')asf:f.write(message)#获取图片文件的hash值defget_ImageHash(self,imagefile):hash=Noneifos.path.exists(imagefile):withopen(imagefile,'rb')asfp:hash=imagehash.average_hash(Image.open(fp))returnhash#点降噪defclearNoise(self,imageFile,x=0,y=0):ifos.path.exists(imageFile):image=Image.open(imageFile)image=image.convert('L')image=numpy.asarray(image)image=(image>135)*255image=Image.fromarray(image).convert('RGB')#save_name="D:\work\python36_crawl\Veriycode\mode_5590.png"#image.save(save_name)image.save(imageFile)returnimage#切割验证码#rownum:切割行数;colnum:切割列数;dstpath:图片文件路径;img_name:要切割的图片文件defsplitimage(self,imagePath,imageFile,rownum=1,colnum=4):img=Image.open(imageFile)w,h=img.sizeifrownum<=handcolnum<=w:print('Originalimageinfo:%sx%s,%s,%s'%(w,h,img.format,img.mode))print('开始处理图片切割,请稍候...')s=os.path.split(imageFile)ifimagePath=='':dstpath=s[0]fn=s[1].split('.')basename=fn[0]ext=fn[-1]num=1rowheight=h//rownumcolwidth=w//colnumfile_list=[]forrinrange(rownum):index=0forcinrange(colnum):#(left,upper,right,lower)#box=(c*colwidth,r*rowheight,(c+1)*colwidth,(r+1)*rowheight)ifindex<1:colwid=colwidth+6elifindex<2:colwid=colwidth+1elifindex<3:colwid=colwidthbox=(c*colwid,r*rowheight,(c+1)*colwid,(r+1)*rowheight)newfile=os.path.join(imagePath,basename+'_'+str(num)+'.'+ext)file_list.append(newfile)img.crop(box).save(newfile,ext)num=num+1index+=1returnfile_listdefcompare_image_with_hash(self,image_hash1,image_hash2,max_dif=0):"""max_dif:允许最大hash差值,越小越精确,最小为0推荐使用"""dif=image_hash1-image_hash2#print(dif)ifdif<0:dif=-dififdif<=max_dif:returnTrueelse:returnFalse#截取验证码图片defsavePicture(self):self.driver.get(self.logonUrl)self.driver.maximize_window()time.sleep(1)self.driver.save_screenshot(self.codedir+"\Temp.png")checkcode=self.driver.find_element_by_id("checkcode")location=checkcode.location#获取验证码x,y轴坐标size=checkcode.size#获取验证码的长宽rangle=(int(location['x']),int(location['y']),int(location['x']+size['width']),int(location['y']+size['height']))#写成我们需要截取的位置坐标i=Image.open(self.codedir+"\Temp.png")#打开截图result=i.crop(rangle)#使用Image的crop函数,从截图中再次截取我们需要的区域filename=datetime.datetime.now().strftime("%M%S")filename=self.codedir+"\Temp_code.png"result.save(filename)self.clearNoise(filename)file_list=self.splitimage(self.codedir,filename)verycode=''forfinfile_list:imageHash=self.get_ImageHash(f)forh,codeinself.hash_code_dict.items():flag=self.compare_image_with_hash(imageHash,h,0)ifflag:#print(code)verycode+=codebreakprint(verycode)self.driver.close()deflongon(self):self.driver.get(self.logonUrl)self.driver.maximize_window()time.sleep(1)self.savePicture()accname=self.driver.find_element_by_id("username")#accname=self.driver.find_element_by_id("//input[@id='username']")accname.send_keys('ctrchina')accpwd=self.driver.find_element_by_id("password")#accpwd.send_keys('123456')code=self.getVerycode()checkcode=self.driver.find_element_by_name("checkcode")checkcode.send_keys(code)submit=self.driver.find_element_by_name("button")submit.click()实例补充:
# -*- coding: utf-8 -*import sysreload(sys)sys.setdefaultencoding( "utf-8" )import reimport requestsimport ioimport osimport jsonfrom PIL import Imagefrom PIL import ImageEnhancefrom bs4 import BeautifulSoupimport mdataclass Student: def __init__(self, user,password): self.user = str(user) self.password = str(password) self.s = requests.Session() def login(self): url = "http://202.118.31.197/ACTIONLOGON.APPPROCESS?mode=4" res = self.s.get(url).text imageUrl = 'http://202.118.31.197/'+re.findall('<img src="(.+?)" width="55"',res)[0] im = Image.open(io.BytesIO(self.s.get(imageUrl).content)) enhancer = ImageEnhance.Contrast(im) im = enhancer.enhance(7) x,y = im.size for i in range(y): for j in range(x): if (im.getpixel((j,i))!=(0,0,0)): im.putpixel((j,i),(255,255,255)) num = [6,19,32,45] verifyCode = "" for i in range(4): a = im.crop((num[i],0,num[i]+13,20)) l=[] x,y = a.size for i in range(y): for j in range(x): if (a.getpixel((j,i))==(0,0,0)): l.append(1) else: l.append(0) his=0 chrr=""; for i in mdata.data: r=0; for j in range(260): if(l[j]==mdata.data[i][j]): r+=1 if(r>his): his=r chrr=i verifyCode+=chrr # print "辅助输入验证码完毕:",verifyCode data= { 'WebUserNO':str(self.user), 'Password':str(self.password), 'Agnomen':verifyCode, } url = "http://202.118.31.197/ACTIONLOGON.APPPROCESS?mode=4" t = self.s.post(url,data=data).text if re.findall("images/Logout2",t)==[]: l = '[0,"'+re.findall('alert((.+?));',t)[1][1][2:-2]+'"]'+" "+self.user+" "+self.password+"\n" # print l # return '[0,"'+re.findall('alert((.+?));',t)[1][1][2:-2]+'"]' return [False,l] else: l = '登录成功 '+re.findall('! (.+?) ',t)[0]+" "+self.user+" "+self.password+"\n" # print l return [True,l] def getInfo(self): imageUrl = 'http://202.118.31.197/ACTIONDSPUSERPHOTO.APPPROCESS' data = self.s.get('http://202.118.31.197/ACTIONQUERYBASESTUDENTINFO.APPPROCESS?mode=3').text #学籍信息 data = BeautifulSoup(data,"lxml") q = data.find_all("table",attrs={'align':"left"}) a = [] for i in q[0]: if type(i)==type(q[0]) : for j in i : if type(j) ==type(i): a.append(j.text) for i in q[1]: if type(i)==type(q[1]) : for j in i : if type(j) ==type(i): a.append(j.text) data = {} for i in range(1,len(a),2): data[a[i-1]]=a[i] # data['照片'] = io.BytesIO(self.s.get(imageUrl).content) return json.dumps(data) def getPic(self): imageUrl = 'http://202.118.31.197/ACTIONDSPUSERPHOTO.APPPROCESS' pic = Image.open(io.BytesIO(self.s.get(imageUrl).content)) return pic def getScore(self): score = self.s.get('http://202.118.31.197/ACTIONQUERYSTUDENTSCORE.APPPROCESS').text #成绩单 score = BeautifulSoup(score, "lxml") q = score.find_all(attrs={'height':"36"})[0] point = q.text print point[point.find('平均学分绩点'):] table = score.html.body.table people = table.find_all(attrs={'height' : '36'})[0].string r = table.find_all('table',attrs={'align' : 'left'})[0].find_all('tr') subject = [] lesson = [] for i in r[0]: if type(r[0])==type(i): subject.append(i.string) for i in r: k=0 temp = {} for j in i: if type(r[0])==type(j): temp[subject[k]] = j.string k+=1 lesson.append(temp) lesson.pop() lesson.pop(0) return json.dumps(lesson) def logoff(self): return self.s.get('http://202.118.31.197/ACTIONLOGOUT.APPPROCESS').textif __name__ == "__main__": a = Student(20150000,20150000) r = a.login() print r[1] if r[0]: r = json.loads(a.getScore()) for i in r: for j in i: print i[j], print q = json.loads(a.getInfo()) for i in q: print i,q[i] a.getPic().show() a.logoff()到此这篇关于python识别验证码的思路及解决方案的文章就介绍到这了,更多相关python识别验证码的思路是什么内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
大致介绍 在python爬虫爬取某些网站的验证码的时候可能会遇到验证码识别的问题,现在的验证码大多分为四类: 1、计算验证码 2、滑块验证码 3
通用解决方案---取消后台验证码功能因为没有验证码不能进后台所以修改php文件源代码:方法一:打开dede/login.php找到如下代码if(($valida
1.情景展示 登录时,生成随机验证码图片,如何实现? 2.原因分析 后台生成验证码并生成图片返回至前台3.解决方案 导包importjava.awt.C
登陆宝塔面板第一次输错密码再次输入就会要求输入验证码,如果无法显示验证码解决方案如下:SSH登陆执行以下命令:pipinstall--upgradePillow
最近在折腾验证码识别。最终的脚本的识别率在92%左右,9000张验证码大概能识别出八千三四百张左右。好吧,其实是验证码太简单。下面就是要识别的验证码。我主要用的