当前位置：首页 > 资讯 > 源码教程

一分钟搞定 Scrapy 分布式爬虫、队列和布隆过滤器

源码教程
来源：源码码网
编辑：admin
时间：2020-08-28 11:07
阅读：627

使用Scrapy开发一个分布式爬虫？你知道最快的方法是什么吗？一分钟真的能开发好或者修改出一个分布式爬虫吗？

话不多说，先让我们看看怎么实践，再详细聊聊细节。

快速上手

Step 0:

首先安装 Scrapy-Distributed :

如果你没有所需要的运行条件，你可以启动两个 Docker 镜像进行测试 (RabbitMQ 和 RedisBloom):

Step 1 (非必须):

如果你有一个现成的爬虫，可以跳过这个 Step，直接到 Step 2。

创建一个爬虫工程，我这里以一个 sitemap 爬虫为例:

然后修改 spiders 文件夹下的爬虫程序文件:

Step 2:

只需要修改配置文件 settings.py 下的SCHEDULER, DUPEFILTER_CLASS 并且添加 RabbitMQ和 Redis 的相关配置，你就可以马上获得一个分布式爬虫，Scrapy-Distributed 会帮你初始化一个默认配置的 RabbitMQ 队列和一个默认配置的 RedisBloom 布隆过滤器。

你也可以给你的 Spider 类，增加两个类属性，来初始化你的 RabbitMQ 队列或 RedisBloom 布隆过滤器:

Step 3:

检查一下你的 RabbitMQ 队列和 RedisBloom 过滤器，是不是已经正常运行了？

可以看到，Scrapy-Distributed 的加持下，我们只需要修改配置文件，就可以将普通爬虫修改成支持 RabbitMQ 队列和 RedisBloom 布隆过滤器的分布式爬虫。在拥有 RabbitMQ 和 RedisBloom 环境的情况下，修改配置的时间也就一分钟。

关于Scrapy-Distributed

目前 Scrapy-Distributed 主要参考了Scrapy-Redis 和 scrapy-rabbitmq 这两个库。

如果你有过 Scrapy 的相关经验，可能会知道 Scrapy-Redis 这个库，可以很快速的做分布式爬虫，如果你尝试过使用 RabbitMQ 作为爬虫的任务队列，你可能还见到过 scrapy-rabbitmq 这个项目。诚然 Scrapy-Redis 已经很方便了，scrapy-rabbitmq 也能实现 RabbitMQ 作为任务队列，但是他们存在一些缺陷，我这里简单提出几个问题。

Scrapy-Redis 使用 Redis 的 set 去重，链接数量越大占用的内存就越大，不适合任务数量大的分布式爬虫。
Scrapy-Redis 使用 Redis 的 list 作为队列，很多场景会有任务积压，会导致内存资源消耗过快，比如我们爬取网站 sitemap 时，链接入队的速度远远大于出队。
scrapy-rabbitmq 等 RabbitMQ 的 Scrapy 组件，在创建队列方面，没有提供 RabbitMQ 支持的各种参数，无法控制队列的持久化等参数。
scrapy-rabbitmq 等 rabbitmq 框架的 Scheduler 暂未支持分布式的 dupefilter ，需要使用者自行开发或接入相关组件。
Scrapy-Redis 和 scrapy-rabbitmq 等框架都是侵入式的，如果需要用这些框架开发分布式的爬虫，需要我们修改自己的爬虫代码，通过继承框架的 Spider 类，才能实现分布式功能。

于是，Scrapy-Distributed 框架就在这个时候诞生了，在非侵入式设计下，你只需要通过修改 settings.py 下的配置，框架就可以根据默认配置将你的爬虫分布式化。

为了解决Scrapy-Redis 和 scrapy-rabbitmq 存在的一些痛点，Scrapy-Distributed 做了下面几件事:

采用了 RedisBloom 的布隆过滤器，内存占用更少。
支持了 RabbitMQ 队列声明的所有参数配置，可以让 RabbitMQ 队列支持 lazy-mode 模式，将减少内存占用。
RabbitMQ 的队列声明更加灵活，不同爬虫可以使用相同队列配置，也可以使用不同的队列配置。
Scheduler 的设计上支持多个组件的搭配组合，可以单独使用 RedisBloom 的DupeFilter，也可以单独使用 RabbitMQ 的 Scheduler 模块。
实现了 Scrapy 分布式化的非侵入式设计，只需要修改配置，就可以将普通爬虫分布式化。

为了让大家更加即时地沟通学习，我们建了一个技术学习交流群，有想入群的同学，可以添加QQ群：996246886

特别声明：
1、如无特殊说明，内容均为本站原创发布，转载请注明出处；
2、部分转载文章已注明出处，转载目的为学习和交流，如有侵犯，请联系客服删除；
3、编辑非《源码码网》的文章均由用户编辑发布，不代表本站立场，如涉及侵犯，请联系删除；

全部评论(0)

推荐阅读

常用测试压力工具使用介绍
ab 是 ApacheBench 工具的缩写，它是一个HTTP压力测试工具。让我详细说明如何测试：1. 安装ApacheBenchWindows系统：方法一：安装XAMPP或WAMP（自带ab）下载地址：https://www.apachefriends.org/zh_cn/index.html安装后，ab工具在：C:xamppapacheinab.exe方法二：使
开发工具
来源：源码码网
编辑：源码码网
时间：2026-01-13 20:27
阅读：59

工程项目一体化自动管理软件解决方案
1.项目概述1.1项目背景在工程建设行业数字化转型浪潮下，传统项目管理面临信息孤岛、协同困难、进度不可控、成本超支等痛点。本方案旨在构建一个覆盖工程项目全生命周期、全参与方、全业务流程的一体化智能管理平台。1.2解决方案愿景打造数据驱动、智能协同、风险预警、自动执行的工程大脑，实现：管理流程自动化率≥80%项目协同效率提升40%成本偏差率降低至±3%以内安全事故发生率降低60%1.3目标用户矩阵┌───────────────┬
行业资讯
来源：源码码网
编辑：源码码网
时间：2026-01-09 11:26
阅读：169

车辆管理系统需求文档与技术架构PC端+小程序
第一部分：需求文档1.项目概述1.1项目背景为企事业单位、车队运营商、租赁公司等提供一套完整的车辆全生命周期管理解决方案，实现车辆管理数字化、智能化。1.2项目目标建立车辆从购置到报废的全流程管理体系实现用车申请、调度、监控、结算的闭环管理通过数据分析优化车辆使用效率降低车辆运维成本20%以上1.3用户角色矩阵┌──────────────┬─────────────────────────────┬──────────────
行业资讯
来源：源码码网
编辑：源码码网
时间：2026-01-09 11:11
阅读：162

智慧农业/渔业物联网系统需求文档
智慧农业/渔业物联网系统需求文档文档版本： V1.0项目目标：构建一个集环境智能监测、设备自动化控制、生长模型分析、溯源管理与远程指挥于一体的综合物联网管理平台，实现降本增效、提质增产、风险预警与品牌增值。1.系统总体概述1.1核心价值：数据驱动决策，解放人力，实现农业/渔业生产的精准化、自动化与智能化。1.2用户角色：生产员/养殖员：现场巡视、接收告警、执行设备手动控制、查看实时环境
行业资讯
来源：源码码网
编辑：源码码网
时间：2026-01-09 11:04
阅读：68

程序员AI编程工具推荐
AI编程工具是当前开发者的“副驾驶”，能够极大提升开发效率。以下我将从通用型、代码专用型、垂直领域型以及开源/自部署型几个维度为您分类推荐，并附上它们的核心特点和适用场景，帮助您选择。一、通用型AI对话助手（编程是核心能力之一）这类工具本质是“更懂代码的ChatGPT”，适合处理广泛的编程问题、解释代码、生成文档等。ChatGPT(GPT-4/4o)简介：行业标杆，尤其在GPT-4版本下，代码理解和生成能力极强。优点：上下文能力强，
源码教程
来源：源码码网
编辑：源码码网
时间：2026-01-09 10:56
阅读：96

商品推荐
B2C电商系统商城源码支持pC+小程序+公众号+H5可打包App源...
￥3680.00
原生开发淘宝客App，Android+ios独立开发，全开源支持二...
￥5800.00
知识付费系统在线教育平台源码+题库系统源码，PC+公众号商业授权...
￥7980.00
B2C单商户电商系统源码部署小程序+公众号+H5+App源码...
￥3280.00
教育知识付费系统源码带题库功能商业授权公众号+H5源码...
￥6980.00

资讯排行榜
更多>>