时间:2021-05-23
1.selenum:三方库。可以实现让浏览器完成自动化的操作。
2.环境搭建
2.1 安装:
pip install selenium2.2 获取浏览器的驱动程序
下载地址:
http://chromedriver.storage.googleapis.com/index.html
http://npm.taobao.org/mirrors/chromedriver/
浏览器版本和驱动版本的对应关系表:
所有chromedriver均可在下面链接中下载到:
http://chromedriver.storage.googleapis.com/index.html
现在有一点好的是出了按照chrome版本对应的driver,直接按照浏览器版本去找对应的driver(只对应大版本就行),不用再费心去对应了,大家可以尝试一下
有些同学说下不了,到taobao下也是可以的:
http://npm.taobao.org/mirrors/chromedriver/
定位元素的8种方式:
接下来,我们的页面上有一组文本链接。
<a class="mnav" href="http://news.baidu.com" rel="external nofollow" name="tj_trnews">新闻</a><a class="mnav" href="http:///typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action='bro = webdriver.PhantomJS('E:/BaiduNetdiskDownload/爬虫课件/5. 动态数据加载爬取\phantomjs‐2.1.1‐windows/bin/phantomjs.exe')bro.get(url)sleep(1)bro.save_screenshot("./1.png")js = 'window.scrollTo(0,document.body.scrollHeight)'# 执行js代码 滚动条bro.execute_script(js)sleep(1)bro.save_screenshot('./2.png')# 获取页面数据page_source = bro.page_sourceprint(page_source)以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
使用python写爬虫时,优选selenium,由于PhantomJS因内部原因已经停止更新,最新版的selenium已经使用headlesschrome替换掉
之前写了个python脚本用selenium+phantomjs爬新帖子,在循环拉取页面的过程中,phantomjs总是block住,使用WebDriverWa
Python爬虫不仅仅可以爬取静态网页,也可以爬取抓取动态网页。但是新版的Selenium不支持PhantomJS,无法进行动态网页的爬取,因此要放弃Phant
之所以把selenium爬虫称之为可视化爬虫主要是相较于前面所提到的几种网页解析的爬虫方式selenium爬虫主要是模拟人的点击操作selenium驱动浏览器并
环境搭建准备工具:pyton3.5,selenium,phantomjs我的电脑里面已经装好了python3.5安装Seleniumpip3installsel