通用爬虫和聚焦爬虫的区别

根据使用场景网络爬虫可分为通用爬虫和聚焦爬虫两种。

1 通用爬虫

通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。

1.1 目标

把互联网上所有的网页下载下来，放到本地服务器里形成备份，再对这些网页做相关处理（提取关键字、去掉广告），最后提供一个用户检索接口。
通用爬虫工作流程：爬取网页–存储数据–内容处理–提供检索/排名服务

1.2 第一步：抓取网页

搜索引擎网络爬虫的基本抓取流程：
a）首先选取一部分已有的URL，把这些URL放到待爬取队列。
b）从队列里取出这些URL，然后解析DNS得到主机IP，然后去这个IP对应的服务器里下载HTML页面，保存到搜索引擎的本地服务器，之后把这个爬过的URL放入已爬取队列。
c）分析这些网页内容，找出网页里其他的URL链接，继续执行第二步，直到爬取条件结束。
搜索引擎如何获取一个新网站的URL：
a）主动向搜索引擎提交网址如：百度
b）在其他网站里设置网站的外链（尽可能处于搜索引擎爬虫爬取范围）
c）

url 搜索引擎服务器互联网网络爬虫本地服务 baidu 工作流程工作流 google 关键字 html 使用场景 dns