根据使用场景网络爬虫可分为通用爬虫和聚焦爬虫两种。
1 通用爬虫
通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。
1.1 目标
把互联网上所有的网页下载下来,放到本地服务器里形成备份,再对这些网页做相关处理(提取关键字、去掉广告),最后提供一个用户检索接口。
通用爬虫工作流程:爬取网页–存储数据–内容处理–提供检索/排名服务
1.2 第一步:抓取网页
搜索引擎网络爬虫的基本抓取流程:a)首先选取一部分已有的URL,把这些URL放到待爬取队列。
b)从队列里取出这些URL,然后解析DNS得到主机IP,然后去这个IP对应的服务器里下载HTML页面,保存到搜索引擎的本地服务器,之后把这个爬过的URL放入已爬取队列。
c)分析这些网页内容,找出网页里其他的URL链接,继续执行第二步,直到爬取条件结束。
搜索引擎如何获取一个新网站的URL:
a)主动向搜索引擎提交网址如:百度
b)在其他网站里设置网站的外链(尽可能处于搜索引擎爬虫爬取范围)
c)