时间:2021-05-22
使用Selenium驱动chrome页面,获得淘宝信息并用BeautifulSoup分析得到结果。
使用Selenium时注意页面的加载判断,以及加载超时的异常处理。
import jsonimport refrom bs4 import BeautifulSoupfrom selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECbrowser = webdriver.Chrome()# 浏览器需要多次使用,所以单独拿出来。设置一个最长的等待时间,等待目标加载完成wait = WebDriverWait(browser, 10)def search(keyword): # wait容易出现加载时间长的问题,因此用try来捕捉异常 try: browser.get('https://pile('(\d+)').search(total).group(1)) # 翻页 for i in range(2, total+1): # 循环包含前,不包含尾 next_page(i) browser.close()if __name__ == '__main__': main()更多内容请参考专题《python爬取功能汇总》进行学习。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用BeautifulSoup对爬取的页面进行解析,提取出所有的URL
本文实例讲述了Python进阶之使用selenium爬取淘宝商品信息功能。分享给大家供大家参考,具体如下:#encoding=utf-8__author__='
Python爬虫不仅仅可以爬取静态网页,也可以爬取抓取动态网页。但是新版的Selenium不支持PhantomJS,无法进行动态网页的爬取,因此要放弃Phant
本文实例为大家分享了python爬取足球联赛积分榜的具体代码,供大家参考,具体内容如下使用BeautifulSoup4解析爬取足球直播吧五大联赛积分榜信息;#!
之前写了个python脚本用selenium+phantomjs爬新帖子,在循环拉取页面的过程中,phantomjs总是block住,使用WebDriverWa