时间:2021-05-22
百度指数抓取,再用图像识别得到指数
前言:
土福曾说,百度指数很难抓,在淘宝上面是20块1个关键字:
哥那么叼的人怎么会被他吓到,于是乎花了零零碎碎加起来大约2天半搞定,在此鄙视一下土福
安装的库很多:
谷歌图像识别tesseract-ocrpip3 install pillowpip3 install pyocrselenium2.45Chrome47.0.2526.106 m or Firebox32.0.1chromedriver.exe图像识别验证码请参考:https://mon.action_chains import ActionChainsActionChains(browser).move_to_element_with_offset(xoyelement,x_0,y_0).perform()
但是这样子确定的点指出是在这个位置:
也就是矩形的左上角,这里是不会加载js显示弹出框的,所以要给横坐标+1:
写个按照天数的循环,让横坐标累加:
鼠标横移时会弹出框,在网址里面找到这个框:
selenium自动识别之...:
并且确定这个框的大小位置:
截取的图形为:
下面的思路就是:
1.将整个屏幕截图下来
2.打开截图用上面得到的这个坐标rangle进行裁剪
但是最后裁剪出来的是上面的那个黑框,我想要的效果是:
所以要对rangle进行计算,但是我懒,忽略了搜索词的长度,直接暴力的写成:
这个写法最终不太好,最起码要对keyword的长度进行判断,长度过长会导致截图坐标出现偏差,反正我知道怎么做,就是不写出来给你们看!
后面的完整代码是:
但是后面发现裁剪的图片太小,识别精度太低,所以需要对图片进行扩大:
原图大小请 右键->属性->详细信息 查看,我的是长73像素,宽29像素
最后就是图像识别
最后效果图:
源码下载:demo
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
本文实例讲述了python抓取百度首页的方法。分享给大家供大家参考。具体实现方法如下:importurllibdefdownURL(url,filename):
百度指数地址:http://index.baidu.com百度指数是SEO工作者最常用的工具之一。关于百度指数:1、百度指数是统计关键词搜索量的工具。2、百度指
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2),所以我用Python3的语法写了一个
分享百度的另一个对SEO优化非常重要的工具:百度指数http://百度指数可以说是百度产品的标志性产品。一、什么是百度指数?百度指数是用来反映过去30天关键字曝
本文实例讲述了Python抓取百度查询结果的方法。分享给大家供大家参考。具体实现方法如下:#winpython2.7.ximportre,sys,urllib,