Python爬虫图片懒加载技术 selenium和PhantomJS解析

时间：2021-05-22

一.什么是图片懒加载？

- 案例分析：抓取站长素材http://sc.chinaz.com/中的图片数据

#!/usr/bin/env python# -*- coding:utf-8 -*-import requestsfrom lxml import etreeif __name__ == "__main__": url = 'http://sc.chinaz.com/tupian/gudianmeinvtupian.html' headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36', } #获取页面文本数据 response = requests.get(url=url,headers=headers) response.encoding = 'utf-8' page_text = response.text #解析页面数据（获取页面中的图片链接） #创建etree对象 tree = etree.HTML(page_text) div_list = tree.xpath('//div[@id="container"]/div') #解析获取图片地址和图片的名称 for div in div_list: image_url = div.xpath('.//img/@src') image_name = div.xpath('.//img/@alt') print(image_url) #打印图片链接 print(image_name)#打印图片名称

运行结果观察发现，我们可以获取图片的名称，但是链接获取的为空，检查后发现xpath表达式也没有问题，究其原因出在了哪里呢？

- 图片懒加载概念：

图片懒加载是一种网页优化技术。图片作为一种网络资源，在被请求时也与普通静态资源一样，将占用网络资源，而一次性将整个页面的所有图片加载完，将大大增加页面的首屏加载时间。为了解决这种问题，通过前后端配合，使图片仅在浏览器当前视窗内出现时才加载该图片，达到减少首屏图片请求数的技术就被称为“图片懒加载”。

- 网站一般如何实现图片懒加载技术呢？

在网页源码中，在img标签中首先会使用一个“伪属性”（通常使用src2，original......）去存放真正的图片链接而并非是直接存放在src属性中。当图片出现到页面的可视化区域中，会动态将伪属性替换成src属性，完成图片的加载。

- 站长素材案例后续分析：通过细致观察页面的结构后发现，网页中图片的链接是存储在了src2这个伪属性中

#!/usr/bin/env python# -*- coding:utf-8 -*-import requestsfrom lxml import etreeif __name__ == "__main__": url = 'http://sc.chinaz.com/tupian/gudianmeinvtupian.html' headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36', } #获取页面文本数据 response = requests.get(url=url,headers=headers) response.encoding = 'utf-8' page_text = response.text #解析页面数据（获取页面中的图片链接） #创建etree对象 tree = etree.HTML(page_text) div_list = tree.xpath('//div[@id="container"]/div') #解析获取图片地址和图片的名称 for div in div_list: image_url = div.xpath('.//img/@src'2) #src2伪属性 image_name = div.xpath('.//img/@alt') print(image_url) #打印图片链接 print(image_name)#打印图片名称

二.selenium

- 什么是selenium？

是Python的一个第三方库，对外提供的接口可以操作浏览器，然后让浏览器完成自动化的操作。　　

- 环境搭建

1.安装selenum：pip install selenium

2.获取某一款浏览器的驱动程序（以谷歌浏览器为例）　

2.1 谷歌浏览器驱动下载地址

2.2 下载的驱动程序必须和浏览器的版本统一

大家可以根据http://blog.csdn.net/huilan_same/article/details/51896672中提供的版本映射表进行对应

- 效果展示：大家可以将如下代码运行，观看效果

from selenium import webdriverfrom time import sleep# 后面是你的浏览器驱动位置，记得前面加r'','r'是防止字符转义的driver = webdriver.Chrome(r'驱动程序路径')# 用get打开百度页面driver.get("http:///'browser.get(url)time.sleep(3)browser.save_screenshot('baidu.png')browser.quit()

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

Python爬虫图片懒加载技术 selenium和PhantomJS解析

相关文章

Python使用selenium + headless chrome获取网页内容的方法示例

解析javascript图片懒加载与预加载的分析总结

Python3爬虫ChromeDriver的安装实例

深入浅析python定时杀进程

python 爬虫之selenium可视化爬虫的实现