详解Selenium+PhantomJS+python简单实现爬虫的功能

时间：2021-05-22

Selenium

一、简介

selenium是一个用于Web应用自动化程序测试的工具，测试直接运行在浏览器中，就像真正的用户在操作一样

selenium2支持通过驱动真实浏览器（FirfoxDriver，IternetExplorerDriver，OperaDriver，ChromeDriver）

selenium2支持通过驱动无界面浏览器（HtmlUnit，PhantomJs）

二、安装

Windows

第一种方法是：下载源码安装，下载地址（https://pypi.python.org/pypi/selenium）解压并把整个目录放到C:\Python27\Lib\site-packages下面

第二种方法是：可以直接在C:\Python27\Scripts 下输入命令安装 pip install -U selenium

sudo pip install selenium

PhantomJS

一、简介

PhantomJS 是一个基于 WebKit（WebKit是一个开源的浏览器引擎，Chrome，Safari就是用的这个浏览器引擎）的服务器端 JavaScript API，主要应用场景是：无需浏览器的 Web 测试，页面访问自动化，屏幕捕获，网络监控

二、安装

Windows

下载源码安装，下载地址（http://phantomjs.org/download.html）解压并把解压缩的路径添加到环境变量中即可，我自己的放到了C:\Python27\Scripts 下面

Linux

sudo apt-get install PhantomJS

Selenium + PhantomJS + python 简单实现爬虫的功能

python可以使用selenium执行javascript，selenium可以让浏览器自动加载页面，获取需要的数据。selenium自己不带浏览器，可以使用第三方浏览器如Firefox，Chrome等，也可以使用headless浏览器如PhantomJS在后台执行。
在工作用遇到一个问题,当加载一个手机端的URL时候，会加载不上，需要我们在请求头中设置一个User-Agent，设置完以后就可以打开了（Windows下执行，linux下执行的话就不用加executable_path='C:\Python27\Scripts\phantomjs.exe'）

from selenium import webdriverfrom selenium.webdriver.common.desired_capabilities import DesiredCapabilities dcap = dict(DesiredCapabilities.PHANTOMJS) #设置userAgentdcap["phantomjs.page.settings.userAgent"] = ("Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:25.0) Gecko/20100101 Firefox/25.0 ") obj = webdriver.PhantomJS(executable_path='C:\Python27\Scripts\phantomjs.exe',desired_capabilities=dcap) #加载网址obj.get('http://wap.95533pc.com')#打开网址obj.save_screenshot("1.png") #截图保存obj.quit() # 关闭浏览器。当出现异常时记得在任务浏览器中关闭PhantomJS，因为会有多个PhantomJS在运行状态，影响电脑性能

一、超时设置

webdriver类中有三个和时间相关的方法：

1.pageLoadTimeout 设置页面完全加载的超时时间，完全加载即完全渲染完成，同步和异步脚本都执行完
2.setScriptTimeout 设置异步脚本的超时时间
3.implicitlyWait 识别对象的智能等待时间

下面我们以获取校花网title为例来验证效果，因为校花网中图片比较多，所以加载的时间比较长，更能时间我们的效果（另一原因我就不说了，这样才能让我们学起来带劲，哈哈！！！）

from selenium import webdriverobj = webdriver.PhantomJS(executable_path="D:\Python27\Scripts\phantomjs.exe")obj.set_page_load_timeout(5)try: obj.get('http://") obj.find_element_by_id('TANGRAM__PSP_4__userName').send_keys('13201392325') #定位并输入用户名 obj.find_element_by_id('TANGRAM__PSP_4__password').send_keys('18399565576lu') #定位并输入密码 obj.find_element_by_id('TANGRAM__PSP_4__submit').submit() #提交表单内容 f = obj.find_element_by_xpath('/html/body/div/div[2]/div[2]/....') #定位到要点击的标签 ActionChains(obj).double_click(f).perform() #对定位到的元素进行双击操作 except Exception as e: print e

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

详解Selenium+PhantomJS+python简单实现爬虫的功能

相关文章

Python使用selenium + headless chrome获取网页内容的方法示例

Python3爬虫ChromeDriver的安装实例

深入浅析python定时杀进程

Python爬虫制作翻译程序的示例代码

Python实现简单的获取图片爬虫功能示例