python 爬虫之selenium可视化爬虫的实现

时间:2021-05-22

之所以把selenium爬虫称之为可视化爬虫

主要是相较于前面所提到的几种网页解析的爬虫方式

selenium爬虫主要是模拟人的点击操作

selenium驱动浏览器并进行操作的过程是可以观察到的

就类似于你在看着别人在帮你操纵你的电脑,类似于别人远程使用你的电脑

当然了,selenium也有无界面模式

快速入门

selenium基本介绍:

selenium 是一套完整的web应用程序测试系统,

包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)
和测试的并行处理(Selenium Grid)。

Selenium的核心Selenium Core基于JsUnit,
完全由JavaScript编写,因此可以用于任何支持JavaScript的浏览器上。
selenium可以模拟真实浏览器,自动化测试工具,支持多种浏览器,

爬虫中主要用来解决JavaScript渲染问题。

用python写爬虫的时候,主要用的是selenium的Webdriver,

#安装selenium库pip install selenium#安装对应浏览器驱动# 我们可以通过下面的方式先看看Selenium.Webdriver支持哪些浏览器from selenium import webdriverprint(help(webdriver))适用浏览器:PACKAGE CONTENTS android (package) blackberry (package) chrome (package) common (package) edge (package) firefox (package) ie (package) opera (package) phantomjs (package) remote (package) safari (package) support (package) webkitgtk (package)#这里要说一下比较重要的PhantomJS,#PhantomJS是一个而基于WebKit的服务端JavaScript API,#支持Web而不需要浏览器支持,#其快速、原生支持各种Web标准:Dom处理,CSS选择器,JSON等等。#PhantomJS可以用用于页面自动化、网络监测、网页截屏,以及无界面测试

谷歌浏览器驱动下载地址
注意对应版本号,chrome地址栏输入chrome://version/ 查看自己的Chrome版本
我使用的是anaconda 下载好后丢入anaconda3\Scripts文件夹下就可以了
如果是其他ide如:pycharm、VScode但加载的还是anaconda的集成python,依然可以这么操作

简单测试

from selenium import webdriver# #声明浏览器对象browser1 = webdriver.Chrome()browser2 = webdriver.Firefox()# #访问页面browser1.get("http:///'#设置最大等待时长 10秒drive.implicitly_wait(10)drive.get(url)user = drive.find_element_by_name("LoginForm[username]")

3.线程休眠
time.sleep(time)是比较常用的线程休眠方式
为了避免风险,我个人比较喜欢随机休眠
time.sleep(random.uniform(4,5))

扩展程序加载

# 设置好应用扩展chrome_options.add_extension(extension_path)#添加下载路径#download.default_directory:设置下载路径 profile.default_content_settings.popups:设置为 0 禁止弹出窗口prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory':tmp_path}chrome_options.add_experimental_option('prefs', prefs)

到此这篇关于python 爬虫之selenium可视化爬虫的实现的文章就介绍到这了,更多相关selenium可视化爬虫内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!

声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。

相关文章