分布式爬虫 - 大数据

什么是分布式爬虫？

1.默认情况下，scrapy爬虫是单机爬虫，只能在一台电脑上运行，因为爬虫调度器当中的队列queue去重和set集合都是本机上创建的其他的电脑无法访问另外一台电脑上的内存的内容。

2.分布式爬虫用一个共同的爬虫程序，同时部署到多台电脑上运行，这样可以提高爬虫速度，实现分布式爬虫。

分布式爬虫的前提

1.要保证每一台计算机都能够正常的执行scrapy命令，能够启动爬虫。

2.要保证所有的爬虫程序可以访问同一个队列一个set集合。

想要保证多台机器共用一个queue队列和set集合，scrapy中是结合scrapy_redis完成的，分布式爬虫可以让所有机器上的爬虫程序从同一个queue队列中获取request请求，并且每个机器取出request请求的对象是不一样的，直到所有的request被请求完毕。

分布式爬虫的使用范围/要求

1.分布式爬虫对电脑的性能有一定的要求。

2.分布式对网速也有一定的要求，电脑性能和网速如果不是很好的话，爬虫效率不如单机爬虫注意：并不是任何时候都可以使用分布式爬虫，因为对硬件有较高的要求。

分布式爬虫经常和redis数据库一起使用。

redis简介

Redis 是完全开源免费的，遵守BSD协议，是一个高性能的key-value数据库。

Redis 与其他 key - value 缓存产品有以下三个特点：

Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。 Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。 Redis支持数据的备份，即master-slave模式的数据备份。

redis优势

性能极高 – Redis能读的速度是110000次/s,写的速度是81000次/s 。丰富的数据类型 – Redis支持二进制案例的 Strings, Lists, Hashes, Sets 及 Ordered Sets 数据类型操作。原子 – Redis的所有操作都是原子性的，意思就是要么成功执行要么失败完全不执行。单个操作是原子性的。多个操作也支持事务，即原子性，通过MULTI和EXEC指令包起来。丰富的特性 – Redis还支持 publish/subscribe, 通知, key 过期等等特性。

简单的来说redis的优点为：

1.默认使用持久化数据方式

2.体积小，使用方便

3.如果存储量比较大的话启动速度很快

4.数据库中的数据和内存中的数据可以相互访问

red