目录
爬虫的概念
爬虫的原理
爬虫的合法性与robot.txt协议
更多优秀内容关注公众号获取:一号软件
爬虫的概念
网络爬虫也被称为网络蜘蛛、网络机器人,是一个自动下载网页的计算机程序或自动化脚本。
爬虫的原理
网络爬虫按照其系统结构和运作原理,大致可以分为4种:
通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。
1. 通用网络爬虫
通用网络爬虫又称全网爬虫,其爬取对象由一批种子URL扩充至整个Web,主要由搜索引擎或大型Web服务提供商使用。这类爬虫的爬取范围和数量都非常大,对于爬取的速度及存储空间的要求都比较高,而对于爬取页面的顺序要求比较低,通常采用并行工作的方式来应对大量的待刷新页面。
该类爬虫比较适合为搜索引擎搜索广泛的主题,常用的爬取策略可分为深度优先策略和广度优先策略。
2. 聚焦网络爬虫
聚焦网络爬虫又被称作主题网络爬虫,其最大的特点是只选择性地爬取与预设的主题相关的页面。与通用网络爬虫相比,聚焦爬虫仅需爬取与主题相关的页面,极大地节省硬件及网络资源,能更快地更新保存的页面,更好地满足特定人群对特定领域信息的需求。
3. 增量式网络爬虫
增量式网络爬虫只对已下载网页采取增量式更新,或只爬取新产生的及已经发生变化的网页,这种机制能够在某种程度上保证所爬取的页面尽可能的新。与其他周期性爬取和刷新页面的网络爬虫相比,增量式网络爬虫仅在需要的时候爬取新产生或者有更新的页面,而没有变化的页面则不进行爬取,能有效地减少数据下载量并及时更新已爬取过的网页,减少时间和存储空间上的浪费,但该算法的复杂度和实现难度更高。
4. 深层网络爬虫
Web页面按照存在方式可以分为表层页面和深层页面两类。表层页面是指传统搜索引擎可以索引到的页面,以超链接可以到达的静态页面为主。深层页面是指大部分内容无法通过静态链接获取,隐藏在搜索表单后的,需要用户提交关键词后才能获得的Web页面,如一些登录后可见的网页。深层页面中可访问的信息量为表层页面中的几百倍,为目前互联网上发展最快和最大的新型信息资源。
爬虫的合法性与robot.txt协议
1. 爬虫的合法性
网络爬虫领域现在还处于早期的拓荒阶段,虽然已经由互联网行业自身的协议建立起一定的道德规范,但法律部分还在建立和完善中。
目前,多数网站允许将爬虫爬取的数据用于个人使用或者科学研究。但如果将爬取的数据用于其他用途,尤其是转载或者商业用途,则依据各网站的具体情况有不同的后果,严重的将会触犯法律或者引起民事纠纷。
2. robot.txt协议
当使用爬虫爬取网站的数据时,需要遵守网站所有者针对所有爬虫所制定的协议,这便是robot.txt协议。
该协议通常存放在网站根目录下,里面规定了此网站中哪些内容可以被爬虫获取,以及哪些网页内容是不允许爬虫获取的。robot.txt协议并不是一份规范,只是一个约定俗成的协议。
欢迎关注转载、收藏、点赞支持!