网络爬虫本质就是模拟人模拟浏览器访问网站,保存网站内容。
网络爬虫最开始是为了整理网络信息,抓取初步处理成资料文档,类似heritrix爬虫。
另一个广泛的应用就是搜索引擎,搜索引擎需要全网采集内容构建倒排索引。
后来国内出现了一片做网络舆情的公司,网络爬虫需要采集的东西主要是新闻资讯,和搜索引擎的爬虫相似,
近期伴随着大数据的热潮,爬虫也被归于大数据范畴,
原因我猜是大家hadoop框架搭好之后,发现,没数据。
写爬虫吧,这其中有代表性的是互联网金融,需要采集用户信息,构建用户行为。