时间:2021-05-22
针对弹幕的爬取我们如果只需要获取看到的网页里面的而数据,使用selenium就能实现,对于直播平台来说,往往有第三方平台api让你获取数据(可以获取发弹幕,发弹幕者的名字礼物等等,这需要客户端向弹幕服务器发送登录请求,心跳信息的发送等等)只获取弹幕信息储存到txt文件中,上代码,上图片
代码如下:
import timefrom selenium import webdriverchrome_options = webdriver.ChromeOptions()# 使用headless无界面浏览器模式# chrome_options.add_argument('--headless')# chrome_options.add_argument('--disable-gpu')prefs = {"profile.managed_default_content_settings.images": 2}chrome_options.add_experimental_option("prefs", prefs)browser = webdriver.Chrome(chrome_options=chrome_options)url = 'https:///'def getDanmu(homeId): homeHref = url+str(homeId) browser.get(homeHref) while 1: time.sleep(2) try: for i in browser.find_elements_by_xpath('.//div[@class=" danmu-6e95c1"]/div/div'): if len(i.text) > 0: try: print(i.text) except: pass saveDanmu(i.text) else: continue except: time.sleep(2) for i in browser.find_elements_by_xpath('.//div[@class=" danmu-6e95c1"]/div/div'): if len(i.text) > 0: try: print(i.text) except: pass saveDanmu(i.text) else: continuedef saveDanmu(danmu): with open('danmu.txt', 'a+', encoding='utf-8')as f: f.write(danmu+'\n')if __name__ == '__main__': num = input('请输入需要查询的房间号:') getDanmu(num)以上就是python基于selenium爬取斗鱼弹幕的详细内容,更多关于python 爬取斗鱼弹幕的资料请关注其它相关文章!
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
Python爬虫不仅仅可以爬取静态网页,也可以爬取抓取动态网页。但是新版的Selenium不支持PhantomJS,无法进行动态网页的爬取,因此要放弃Phant
scrapy框架只能爬取静态网站。如需爬取动态网站,需要结合着selenium进行js的渲染,才能获取到动态加载的数据。如何通过selenium请求url,而不
之前写了个python脚本用selenium+phantomjs爬新帖子,在循环拉取页面的过程中,phantomjs总是block住,使用WebDriverWa
本文实例讲述了Python进阶之使用selenium爬取淘宝商品信息功能。分享给大家供大家参考,具体如下:#encoding=utf-8__author__='
在使用python爬取网站信息时,查看爬取完后的数据发现,数据并没有被爬取下来,这是因为网站中有UA这种请求载体的身份标识,如果不是基于某一款浏览器爬取则是不正