当前位置：AIGC资讯 > 大数据 > 正文

网络爬虫——网络爬虫的发展

网络爬虫本质就是模拟人模拟浏览器访问网站，保存网站内容。

网络爬虫最开始是为了整理网络信息，抓取初步处理成资料文档，类似heritrix爬虫。

另一个广泛的应用就是搜索引擎，搜索引擎需要全网采集内容构建倒排索引。

后来国内出现了一片做网络舆情的公司，网络爬虫需要采集的东西主要是新闻资讯，和搜索引擎的爬虫相似，

近期伴随着大数据的热潮，爬虫也被归于大数据范畴，

原因我猜是大家hadoop框架搭好之后，发现，没数据。

写爬虫吧，这其中有代表性的是互联网金融，需要采集用户信息，构建用户行为。

搜索引擎网络爬虫大数据浏览器用户行为互联网网站内容新闻资讯 url

更新时间 2023-11-08