python实现带验证码网站的自动登陆实现代码

时间：2021-05-22

早听说用python做网络爬虫非常方便，正好这几天单位也有这样的需求，需要登陆XX网站下载部分文档，于是自己亲身试验了一番，效果还不错。

本例所登录的某网站需要提供用户名，密码和验证码，在此使用了python的urllib2直接登录网站并处理网站的Cookie。

Cookie的工作原理：
Cookie由服务端生成，然后发送给浏览器，浏览器会将Cookie保存在某个目录下的文本文件中。在下次请求同一网站时，会发送该Cookie给服务器，这样服务器就知道该用户是否合法以及是否需要重新登录。

Python提供了基本的cookielib库，在首次访问某页面时，cookie便会自动保存下来，之后访问其它页面便都会带有正常登录的Cookie了。

原理：

（1）激活cookie功能
（2）反“反盗链”，伪装成浏览器访问
（3）访问验证码链接，并将验证码图片下载到本地
（4）验证码的识别方案网上较多，python也有自己的图像处理库，此例调用了火车头采集器的OCR识别接口。
（5）表单的处理，可用fiddler等抓包工具获取需要提交的参数
（6）生成需要提交的数据，生成http请求并发送
（7）根据返回的js页面判断是否登陆成功
（8）登陆成功后下载其它页面

此例中使用多个账号轮询登陆，每个账号下载3个页面。

下载网址因为某些问题，就不透露了。

以下是部分代码：

#!usr/bin/env python#-*- coding: utf-8 -*-import osimport urllib2import urllibimport cookielibimport xml.etree.ElementTree as ET#-----------------------------------------------------------------------------# Login in .cn***/***?record_id=' start_id=8593330 end_id=8595000 now_id=start_id Users=ReadUsersFromFile('users.conf') while True: for key in Users: if ChinaBiddingLogin(login_page, key, Users[key]): for i in range(3): pageUrl=download_page+'%d' % now_id urlcontent=urllib2.urlopen(pageUrl) filepath='./download/%s.html' % now_id f=open(filepath, 'w') f.write(urlcontent.read(500000)) f.close() now_id+=1 else: continue#------------------------------------------------------------------------------if __name__=='__main__': main()

python实现带验证码网站的自动登陆实现代码

相关文章

Python实现简单生成验证码功能【基于random模块】

js实现简单的验证码

js实现随机数字字母验证码

ASP.NET 实现验证码以及刷新验证码的小例子

ASP.NET ashx实现无刷新页面生成验证码