python爬虫selenium和phantomJs使用方法解析

时间：2021-05-23

1.selenum：三方库。可以实现让浏览器完成自动化的操作。

2.环境搭建

2.1 安装：

pip install selenium

2.2 获取浏览器的驱动程序

下载地址：

http://chromedriver.storage.googleapis.com/index.html

http://npm.taobao.org/mirrors/chromedriver/

浏览器版本和驱动版本的对应关系表：

chromedriver版本支持的Chrome版本 v2.46 v71-73 v2.45 v70-72 v2.44 v69-71 v2.43 v69-71 v2.42 v68-70 v2.41 v67-69 v2.40 v66-68 v2.39 v66-68 v2.38 v65-67 v2.37 v64-66 v2.36 v63-65 v2.35 v62-64 v2.34 v61-63 v2.33 v60-62 v2.32 v59-61 v2.31 v58-60 v2.30 v58-60 v2.29 v56-58 v2.28 v55-57 v2.27 v54-56 v2.26 v53-55 v2.25 v53-55 v2.24 v52-54 v2.23 v51-53 v2.22 v49-52 v2.21 v46-50 v2.20 v43-48 v2.19 v43-47 v2.18 v43-46 v2.17 v42-43 v2.13 v42-45 v2.15 v40-43 v2.14 v39-42 v2.13 v38-41 v2.12 v36-40 v2.11 v36-40 v2.10 v33-36 v2.9 v31-34 v2.8 v30-33 v2.7 v30-33 v2.6 v29-32 v2.5 v29-32 v2.4 v29-32

所有chromedriver均可在下面链接中下载到：

http://chromedriver.storage.googleapis.com/index.html

现在有一点好的是出了按照chrome版本对应的driver，直接按照浏览器版本去找对应的driver（只对应大版本就行），不用再费心去对应了，大家可以尝试一下

有些同学说下不了，到taobao下也是可以的：

http://npm.taobao.org/mirrors/chromedriver/

定位元素的8种方式：

#使用下面的方法，查找指定的元素进行操作即可find_element_by_id 根据id找节点find_elements_by_name 根据name找find_elements_by_xpath 根据xpath查找find_elements_by_tag_name 根据标签名找find_elements_by_class_name 根据class名字查找# 通过id定位:dr.find_element_by_id("kw")# 通过name定位:dr.find_element_by_name("wd")# 通过class name定位:dr.find_element_by_class_name("s_ipt")# 通过tag name定位:dr.find_element_by_tag_name("input")# 通过xpath定位，xpath定位有N种写法，这里列几个常用写法:dr.find_element_by_xpath("//*[@id='kw']")dr.find_element_by_xpath("//*[@name='wd']")dr.find_element_by_xpath("//input[@class='s_ipt']")dr.find_element_by_xpath("/html/body/form/span/input")dr.find_element_by_xpath("//span[@class='soutu-btn']/input")dr.find_element_by_xpath("//form[@id='form']/span/input")dr.find_element_by_xpath("//input[@id='kw' and @name='wd']")# 通过css定位，css定位有N种写法，这里列几个常用写法:dr.find_element_by_css_selector("#kw")dr.find_element_by_css_selector("[name=wd]")dr.find_element_by_css_selector(".s_ipt")dr.find_element_by_css_selector("html > body > form > span > input")dr.find_element_by_css_selector("span.soutu-btn> input#kw")dr.find_element_by_css_selector("form#form > span > input")

接下来，我们的页面上有一组文本链接。

<a class="mnav" href="http://news.baidu.com" rel="external nofollow" name="tj_trnews">新闻</a><a class="mnav" href="http:///typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action='bro = webdriver.PhantomJS('E:/BaiduNetdiskDownload/爬虫课件/5. 动态数据加载爬取\phantomjs‐2.1.1‐windows/bin/phantomjs.exe')bro.get(url)sleep(1)bro.save_screenshot("./1.png")js = 'window.scrollTo(0,document.body.scrollHeight)'# 执行js代码滚动条bro.execute_script(js)sleep(1)bro.save_screenshot('./2.png')# 获取页面数据page_source = bro.page_sourceprint(page_source)

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

python爬虫selenium和phantomJs使用方法解析

相关文章

Python使用selenium + headless chrome获取网页内容的方法示例

深入浅析python定时杀进程

Python3爬虫ChromeDriver的安装实例

python 爬虫之selenium可视化爬虫的实现

python+selenium+PhantomJS抓取网页动态加载内容