时间:2021-05-22
在使用Scrapy爬取数据时,有时会碰到需要根据传递给Spider的参数来决定爬取哪些Url或者爬取哪些页的情况。
例如,百度贴吧的放置奇兵吧的地址如下,其中 kw参数用来指定贴吧名称、pn参数用来对帖子进行翻页。
https://tieba.baidu.com/f?kw=放置奇兵&ie=utf-8&pn=250
如果我们希望通过参数传递的方式将贴吧名称和页数等参数传给Spider,来控制我们要爬取哪一个贴吧、爬取哪些页。遇到这种情况,有以下两种方法向Spider传递参数。
方式一
通过 scrapy crawl 命令的 -a 参数向 spider 传递参数。
# -*- coding: utf-8 -*-import scrapyclass TiebaSpider(scrapy.Spider): name = 'tieba' # 贴吧爬虫 allowed_domains = ['tieba.baidu.com'] # 允许爬取的范围 start_urls = [] # 爬虫起始地址 # 命令格式: scrapy crawl tieba -a tiebaName=放置奇兵 -a pn=250 def __init__(self, tiebaName=None, pn=None, *args, **kwargs): print('< 贴吧名称 >: ' + tiebaName) super(eval(self.__class__.__name__), self).__init__(*args, **kwargs) self.start_urls = ['https://tieba.baidu.com/f?kw=%s&ie=utf-8&pn=%s' % (tiebaName,pn)] def parse(self, response): print(response.request.url) # 结果:https://tieba.baidu.com/f?kw=%E6%94%BE%E7%BD%AE%E5%A5%87%E5%85%B5&ie=utf-8&pn=250方式二
仿照 scrapy 的 crawl 命令的源代码,重新自定义一个专用命令。
settings.py
首先,需要在settings.py文件中增加如下配置来指定自定义 scrapy 命令的存放目录。
# 指定 Scrapy 命令存放目录COMMANDS_MODULE = 'baidu_tieba.commands'run.py
在指定的命令存放目录中创建命令文件,在这里我们创建的命令文件为 run.py ,将来执行的命令格式为:
scrapy run [ -option option_value] 。
pipelines.py
在BaiduTiebaPipeline的open_spider()方法中利用 run 命令传入的参数对TiebaSpider进行初始化,在这里示例设置了一下start_urls。
# -*- coding: utf-8 -*-import jsonclass BaiduTiebaPipeline(object): @classmethod def from_settings(cls, settings): return cls(settings) def __init__(self, settings): self.settings = settings def open_spider(self, spider): # 开启爬虫 spider.start_urls = [ 'https://tieba.baidu.com/f?kw=%s&ie=utf-8&pn=%s' % (self.settings['TIEBA_NAME'], self.settings['PAGE_NUM'])] def close_spider(self, spider): # 关闭爬虫 pass def process_item(self, item, spider): # 将帖子内容保存到文件 with open('tieba.txt', 'a', encoding='utf-8') as f: json.dump(dict(item), f, ensure_ascii=False, indent=2) return item设置完成后,别忘了在settings.py中启用BaiduTiebaPipeline。
ITEM_PIPELINES = { 'baidu_tieba.pipelines.BaiduTiebaPipeline': 50,}启动示例
大功告成,参照如下命令格式启动贴吧爬虫。
scrapy run -k 放置奇兵 -p 250参考文章:
https://blog.csdn.net/c0411034/article/details/81750028
https://blog.csdn.net/qq_24760381/article/details/80361400
https://blog.csdn.net/qq_38282706/article/details/80991196
到此这篇关于Scrapy中如何向Spider传入参数的方法实现的文章就介绍到这了,更多相关Scrapy Spider传入参数内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法?方法一:基于Scrapy框架中的Spider的递归爬去进行实现的(Request模
scrapy.FormRequestlogin.pyclassLoginSpider(scrapy.Spider):name='login_spider'sta
本节课介绍了scrapy的爬虫框架,重点说了scrapy组件spider。spider的几种爬取方式:爬取1页内容按照给定列表拼出链接爬取多页找到‘下一页'标签
可变参数的实现要解决三个问题:1.如何调用带有可变参数的函数2.如何编译有可变参数的程序3.在带有可变参数的函数体中如何持有可变参数第一个问题,调用时在可以传入
前言在Java中调用某个方法时,如果该方法的参数是一个接口类型,除了可以传入一个参数接口实现类,还可以使用匿名内部类实现接口来作为该方法的参数。匿名内部类其实就