登录注册

做网站
做推广
做电商

服务支持
应用与服务
关于中企

中企商学院

查看更多

核心必备

数字门户内贸营销版

全球营销版行业解决方案版

通用版企业域名

企业邮箱

行业应用

外贸客户洞察平台产品导入

数字名片

视觉设计

VR全景视频制作

图片拍摄

网络安全

等保认证 SSL证书

查看更多

核心必备

全球SEO 百度首屏展位

Yandex推广 Google海外推广

解决方案

外贸推广解决方案

查看更多

核心必备

全网商城移动商城

装修服务

电商产品拍摄

解决方案

零售行业OMO解决方案政府采购电商平台解决方案

查看更多

查看更多

查看更多

帮助中心

数字门户产品服务保障服务中心

设计师信息化讲堂

解决方案

外贸数字营销解决方案企业视频直播解决方案

企业安全等保解决方案品牌数字化营销解决方案

品牌零售数字商业解决方案智慧园区解决方案

B2B电商平台建设解决方案数字化政务门户解决方案

开拓型外贸企业解决方案成长型外贸企业解决方案

行业解决方案

实战应用

产品剖析律所行业专家

行业解读

学习中心

电商运营学院网站建设学院

查看更多

应用与服务

VR智能全景个性化场景定制服务

网站安全服务云定制

企业视频直播 Banner设计

产品主图设计图片处理

查看更多

企业概况

关于我们企业文化

发展历程数码庄园

法律隐私

资质荣誉

企业资质所获荣誉

新闻中心

新闻公告媒体报道

社会公益视频中心

行业资讯

联系我们

联系我们工作机会

查看更多

查看更多

Scrapy基于scrapy_redis实现分布式爬虫部署的示例

时间：2021-05-22

准备工作

1.安装scrapy_redis包,打开cmd工具,执行命令pip install scrapy_redis

2.准备好一个没有BUG,没有报错的爬虫项目

3.准备好redis主服务器还有跟程序相关的mysql数据库

前提mysql数据库要打开允许远程连接,因为mysql安装后root用户默认只允许本地连接,详情请看此文章

部署过程

1.修改爬虫项目的settings文件

在下载的scrapy_redis包中,有一个scheduler.py文件,里面有一个Scheduler类,是用来调度url,还有一个dupefilter.py文件,里面有个类是RFPDupeFilter,是用来去重,所以要在settings任意位置文件中添加上它们

还有在scrapy_redis包中,有一个pipelines文件,里面的RedisPipeline类可以把爬虫的数据写入redis,更稳定安全,所以要在settings中启动pipelines的地方启动此pipeline

最后修改redis连接配置

2.修改spider爬虫文件

首先我们要引入一个scrapy_redis.spider文件中的一个RedisSpider类,然后把spider爬虫文件原来继承的scrapy.Spider类改为引入的RedisSpider这个类

接着把原来的start_urls这句代码注释掉,加入redis_key = '自定义key值',一般以爬虫名:urls命名

测试部署是否成功

直接运行我们的项目,

打开redis客户端在redis添加key为yunqi:start_urls的列表,值为地址

添加成功后,程序直接跑了起来

查看数据是否插入

分布式用到的代码应该是同一套代码
1）先把项目配置为分布式
2）把项目拷贝到多台服务器中
3）把所有爬虫项目都跑起来
4）在主redis-cli中lpush你的网址即可
5）效果：所有爬虫都开始运行，并且数据还都不一样

到此这篇关于Scrapy基于scrapy_redis实现分布式爬虫部署的示例的文章就介绍到这了,更多相关Scrapy redis分布式爬虫内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

声明：本页内容来源网络，仅供用户参考；我单位不保证亦不表示资料全面及准确无误，也不保证亦不表示这些资料为最新信息，如因任何原因，本网内容或者用户因倚赖本网内容造成任何损失或损害，我单位将不会负任何法律责任。如涉及版权问题，请提交至online#300.cn邮箱联系删除。

相关文章

Copyright © 1999-2026 中企动力科技股份有限公司（300.cn）All Rights Reserved

京公网安备11030102010293号京ICP证010249-2

代理域名注册服务机构：中网瑞吉思（天津）科技有限公司北京新网数码信息技术有限公司

域名注册服务机构许可证编号：京D3-20220007

中企动力域名投诉处理：400-660-5555-9 service4006@300.cn

中国互联网络信息中心（受理范围：“.CN”和“.中国”域名）投诉处理 010-58813000 service@cnnic.cn

电话沟通

400-660-5555

QQ咨询

我们联系您

扫一扫添加动力姐姐微信

微信扫码关注动力小姐姐X