一、初识网络爬虫
网络爬虫又称网络蜘蛛,网络蚂蚁,网络机器人等,可以自动化浏览网络中的信息,当然浏览信息的时候需要按照我们制定的规则进行,这些规则我们称之为网络爬虫算法。使用python可以很方便地编写出爬虫程序,进行互联网信息的自动化检索。
二、网络爬虫的组成
网络爬虫由控制节点、爬虫节点、资源库构成。
下图所示是网络爬虫的控制节点和爬虫节点的结构关系:
可以看到,网络爬虫中可以有多个控制节点,每个控制节点下可以有多个爬虫节点,控制节点之间也可以相互通信,同时,控制节点和其下的各爬虫节点之间也可以进行互相通信,属于同一个控制节点下的各爬虫节点间,亦可以相互通信。
控制节点,也叫爬虫的中央控制器,主要负责根据URL地址分配线程,并调用爬虫节点进行具体的爬行。
爬虫节点会按照相关的算法,对网页,对网页进行具体的爬行,主要包含下载网页以及对网页的文本进行处理,爬行后,会将对应的爬行结果存储到对应的资源库中。
三、网络爬虫的类型
1.通用网络爬虫:主要是由