时间:2021-05-22
在对于淘宝,京东这类网站爬取数据时,通常直接使用发送请求拿回response数据,在解析获取想要的数据时比较难的,因为数据只有在浏览网页的时候才会动态加载,所以要想爬取淘宝京东上的数据,可以使用selenium来进行模拟操作
对于scrapy框架,下载器来说已经没多大用,因为获取的response源码里面没有想要的数据,因为没有加载出来,所以要在请求发给下载中间件的时候直接使用selenium对请求解析,获得完整response直接返回,不经过下载器下载,上代码
from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsimport timefrom scrapy.http.response.html import HtmlResponsefrom scrapy.http.response.text import TextResponsefrom selenium.webdriver import ActionChains class TaobaoMiddleware(object): #处理请求函数 def process_request(self,request,spider): #声明一个Options对象 opt = Options() #给对象添加一个--headless参数,表示无头启动 opt.add_argument('--headless') #把配置参数应用到驱动创建的对象 driver = webdriver.Chrome(options=opt) #打开requests中的地址 driver.get(request.url) #让浏览器滚动到底部 for x in range(1,11): j = x / 10 js = "document.documentElement.scrollTop = document.documentElement.scrollHeight*%f"%j driver.execute_script(js) #每次滚动等待0.5s time.sleep(5) #获取下一页按钮的标签 next_btn =driver.find_element_by_xpath('//span[contains(text(),"下一页")]') #睡眠0.5秒 time.sleep(0.5) #对下一页标签进行鼠标右键触发事件 ActionChains(driver).context_click(next_btn).click().perform() # driver.save_screenshot('截图.png') #把驱动对象获得的源码赋值给新变量 page_source = driver.page_source #退出 driver.quit() #根据网页源代码,创建Htmlresponse对象 response = HtmlResponse(url=request.url,body=page_source,encoding='utf-8',request=request) #因为返回的是文本消息,所以需要指定字符编码格式 return response def process_response(self,request,response,spider): return response def process_exception(self,request,exception,spider): pass以上这篇Scrapy基于selenium结合爬取淘宝的实例讲解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
scrapy框架只能爬取静态网站。如需爬取动态网站,需要结合着selenium进行js的渲染,才能获取到动态加载的数据。如何通过selenium请求url,而不
本文实例讲述了Python利用Scrapy框架爬取豆瓣电影。分享给大家供大家参考,具体如下:1、概念Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应
项目场景:在使用selenium模块进行数据爬取时,通常会遇到爬取iframe中的内容。会因为定位的作用域问题爬取不到数据。问题描述:我们以菜鸟教程的运行实例为
本节课介绍了scrapy的爬虫框架,重点说了scrapy组件spider。spider的几种爬取方式:爬取1页内容按照给定列表拼出链接爬取多页找到‘下一页'标签
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法?方法一:基于Scrapy框架中的Spider的递归爬去进行实现的(Request模