时间:2021-05-22
用python加“验证码”为关键词在baidu里搜一下,可以找到很多关于验证码识别的文章。我大体看了一下,主要方法有几类:一类是通过对图片进行处理,然后利用字库特征匹配的方法,一类是图片处理后建立字符对应字典,还有一类是直接利用ocr模块进行识别。不管是用什么方法,都需要首先对图片进行处理,于是试着对下面的验证码进行分析。
一、图片处理
这个验证码中主要的影响因素是中间的曲线,首先考虑去掉图片中的曲线。考虑了两种算法:
第一种是首先取到曲线头的位置,即x=0时,黑点的位置。然后向后移动x的取值,观察每个x下黑点的位置,判断前后两个相邻黑点之间的距离,如果距离在一定范围内,可以基本判断该点是曲线上的点,最后将曲线上的点全部绘成白色。试了一下这种方法,结果得到的图片效果很一般,曲线不能完全去除,而且容量将字符的线条去除。
第二种考虑用单位面积内点的密度来进行计算。于是首先计算单位面积内点的个数,将单位面积内点个数少于某一指定数的面积去除,剩余的部分基本上就是验证码字符的部分。本例中,为了便于操作,取了5*5做为单位范围,并调整单位面积内点的标准密度为11。处理后的效果:
二、字符验证
这里我使用的方法是利用pytesser进行ocr识别,但由于这类验证码字符的不规则性,使得验证结果的准确性并不是很高。具体哪位大牛,有什么好的办法,希望能给指点一下。
三、准备工作与代码实例
1、PIL、pytesser、tesseract
(1)安装PIL:下载地址:http:///p/tesseract-ocr/,下载后解压,找到tessdata文件夹,用其替换掉pytesser解压后的tessdata文件夹即可。
2、具体代码
#encoding=utf-8###利用点的密度计算import Image,ImageEnhance,ImageFilter,ImageDrawimport sysfrom pytesser import *#计算范围内点的个数def numpoint(im):w,h = im.sizedata = list( im.getdata() )mumpoint=0for x in range(w):for y in range(h):if data[ y*w + x ] !=255:#255是白色mumpoint+=1return mumpoint#计算5*5范围内点的密度def pointmidu(im):w,h = im.sizep=[]for y in range(0,h,5):for x in range(0,w,5):box = (x,y, x+5,y+5)im1=im.crop(box)a=numpoint(im1)if a<11:##如果5*5范围内小于11个点,那么将该部分全部换为白色。for i in range(x,x+5):for j in range(y,y+5):im.putpixel((i,j), 255)im.save(r'img.jpg')def ocrend():##识别image_name = "img.jpg"im = Image.open(image_name)im = im.filter(ImageFilter.MedianFilter())enhancer = ImageEnhance.Contrast(im)im = enhancer.enhance(2)im = im.convert('1')im.save("1.tif")print image_file_to_string('1.tif') if __name__=='__main__':image_name = "1.png"im = Image.open(image_name)im = im.filter(ImageFilter.DETAIL)im = im.filter(ImageFilter.MedianFilter())enhancer = ImageEnhance.Contrast(im)im = enhancer.enhance(2)im = im.convert('1')##a=remove_point(im)pointmidu(im)ocrend()本人的这个方法,最终识别率确实不高,写出来,哪位高手有好的思路或者做法,望不惜赐教!
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
1、介绍在爬虫中经常会遇到验证码识别的问题,现在的验证码大多分计算验证码、滑块验证码、识图验证码、语音验证码等四种。本文就是识图验证码,识别的是简单的验证码,要
大致介绍 在python爬虫爬取某些网站的验证码的时候可能会遇到验证码识别的问题,现在的验证码大多分为四类: 1、计算验证码 2、滑块验证码 3
本文研究的主要是Python验证码识别的相关代码,具体如下。Talkischeap,showyoutheCode!importnumpyasnpimportma
无论是是自动化登录还是爬虫,总绕不开验证码,这次就来谈谈python中光学识别验证码模块tesserocr和pytesseract。tesserocr和pyte
上节我们了解了图形验证码的识别,简单的图形验证码我们可以直接利用Tesserocr来识别,但是近几年又出现了一些新型验证码,如滑动验证码,比较有代表性的就是极验