网络爬虫本质就是模拟人模拟浏览器访问网站,保存网站内容。 网络爬虫最开始是为了整理网络信息,抓取初步处理成资料文档,类似heritrix爬虫。 另一个广泛的应用就是搜索引擎,搜索引擎需要全网采集内容构建倒排索引。 后来国内出现了一片做网络舆情的公司,网络爬虫需要采集的东西主要是新闻资讯,和搜索引擎的爬虫相似, 近期伴随着大数据的热潮,爬虫也被归于大数据范畴, 原因我猜是大家hadoop框架搭好之后,发现,没数据。 写爬虫吧,这其中有代表性的是互联网金融,需要采集用户信息,构建用户行为。 搜索引擎网络爬虫大数据浏览器用户行为互联网网站内容新闻资讯url