爬虫知识点 - 大数据

㈠爬虫简述

爬虫，又叫网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外还有一些名字，例如蚂蚁、自动索引、模拟程序或蠕虫。

㈡爬虫优点

定向数据采集，数据定制化很强，数据针对性强。

㈢爬虫分类

⒈通用网络爬虫(广度)

优点：爬行范围和数量巨大，对于爬行页面的顺序要求相对较低，有较强的应用价值。

缺点：对于爬行速度和存储空间要求较高，要较长的时间才能刷新一次页面。

⒉聚焦网络爬虫(深度)

优点：极大的节省了硬件和网络资源，保存的页面更新快，很好的满足一些特定人群对特定领域信息的需求。

⒊增量式网络爬虫

优点：可有效减少数据下载量，及时更新一爬行的网页，减少时间和空间上的耗费。

缺点：爬行算法的复杂度和实现难度较大。

⒋累计式爬虫

优点：与增量式爬虫不同的是，如果之前的数据发生变化，累计是抓取不会重新爬取。可以保证抓取到相当规模的网页集合。

缺点：累计式抓取到的网页事实上并无法与真是环境中的网络数据保持一致。

⒌Deep Web爬虫

优点：是互联网上最大、发展最快的新型信息资源。

㈣IP地址

代理分类：分为正向代理和反向代理。正向代理分为三种，即高度匿名代理、普通匿名代理和透明代理。

⒈高度匿名代理：隐藏真实IP，不改变客户机的请求。

⒉普通匿名代理：隐藏真实IP，改变客户请求信息。

⒊透明代理：改变请求信息，传送真实IP。