时间:2021-05-22
前言
大家应该都有所体会,为了提高验证码的识别准确率,我们当然要首先得到足够多的测试数据。验证码下载下来容易,但是需要人脑手工识别着实让人受不了,于是我就想了个折衷的办法——自己造验证码。
为了保证多样性,首先当然需要不同的字模了,直接用类似ttf格式的字体文件即可,网上有很多ttf格式的字体包供我们下载。当然,我不会傻到手动下载解压缩,果断要写个爬虫了。
实现方法
网站一:fontsquirrel.com
这个网站的字体可以免费下载,但是有很多下载点都是外链连接到其他网站的,这部分得忽略掉。
#coding:utf-8import urllib2,cookielib,sys,re,os,zipfileimport numpy as np#网站登陆cj=cookielib.CookieJar()opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))opener.addheaders=[('User-agent','Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36))')]urllib2.install_opener(opener)#搜索可下载连接def search(path): request=urllib2.Request(path) response=urllib2.urlopen(request) html=response.read() html=html.replace('\n',' ')#将所有的回车去掉,因为正则表达式是单行匹配。。。。。。 urls=re.findall(r'<a href="(.*?)" rel="external nofollow" >(.*?)</a>',html) for i in urls: url,inner=i if not re.findall(r'Download ',inner)==[] and re.findall(r'offsite',inner)==[] and url not in items: items.append(url)items=[]#保存下载地址for i in xrange(15): host='http:///new.php?page='+str(i+1) search(host) print 'Page'+str(i+1)+'done' items=list(set(items)) print len(items)if not os.path.exists('ttf2'): os.mkdir('ttf2')os.chdir('ttf2')def unzip(rawfile,outputdir): if zipfile.is_zipfile(rawfile): print 'yes' fz=zipfile.ZipFile(rawfile,'r') for files in fz.namelist(): print(files) #打印zip归档中目录 fz.extract(files,outputdir) else: print 'no'for i in items: print i request=urllib2.Request(i) response=urllib2.urlopen(request) html=response.read() name=i.split('=')[-1]+'.zip' f=open(name,'w') f.write(html) f.close() unzip(name,'./') os.remove(name)print os.listdir(os.getcwd())for root ,dire,fis in os.walk('./'):#递归遍历文件夹 for i in fis: if not (i.split('.')[-1]=='ttf' or i.split('.')[-1]=='otf'): os.remove(root+i) print ifor i in os.listdir('./'): if os.path.isdir(i): os.rmdir(i)os.chdir('../')总体操作跟之前的差不多,跑了几十分钟下了4000多的字体。
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家学习或者使用python能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对的支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
系统字体设置具体操作如下: 1、获取字体文件。首先得在自己的电脑里安装上自己喜欢的字体文件,可到百度上下载后缀为ttf的字体文件。 2、安装字体文件。将下载
Python实现删除某路径下文件及文件夹的脚本#!/usr/bin/envpythonimportosimportshutildelList=[]delDir=
本文实例讲述了Python实现批量修改文件名的方法。分享给大家供大家参考。具体如下:下载了评书《贺龙传奇》,文件名中却都含有xxx有声下载,用脚本将其去掉。脚本
本文实例讲述了python实现爬取千万淘宝商品的方法。分享给大家供大家参考。具体实现方法如下:importtimeimportleveldbfromurllib
本文实例讲述了python实现按行切分文本文件的方法。分享给大家供大家参考,具体如下:python脚本利用shell命令来实现文本的操作,这些命令大大减少了我们