认识网络爬虫基本概念

爬虫的概念

爬虫的原理

爬虫的合法性与robot.txt协议

更多优秀内容关注公众号获取：一号软件

爬虫的概念

网络爬虫也被称为网络蜘蛛、网络机器人，是一个自动下载网页的计算机程序或自动化脚本。

爬虫的原理

网络爬虫按照其系统结构和运作原理，大致可以分为4种：

通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。

1. 通用网络爬虫
通用网络爬虫又称全网爬虫，其爬取对象由一批种子URL扩充至整个Web，主要由搜索引擎或大型Web服务提供商使用。这类爬虫的爬取范围和数量都非常大，对于爬取的速度及存储空间的要求都比较高，而对于爬取页面的顺序要求比较低，通常采用并行工作的方式来应对大量的待刷新页面。
该类爬虫比较适合为搜索引擎搜索广泛的主题，常用的爬取策略可分为深度优先策略和广度优先策略。
2. 聚焦网络爬虫
聚焦网络爬虫又被称作主题网络爬虫，其最大的特点是只选择性地爬取与预设的主题相关的页面。与通用网络爬虫相比，聚焦爬虫仅需爬取与主题相关的页面，极大地节省硬件及网络资源，能更快地更新保存的页面，更好地满足特定人群对特定领域信息的需求。
3. 增量式网络爬虫
增量式网络爬虫只对已下载网页采取增量式更新，或只爬取新产生的及已经发生变化的网页，这种机制能够在某种程度上保证所爬取的页面尽可能的新。与其他周期性爬取和刷新页面的网络爬虫相比，增量式网络爬虫仅在需要的时候爬取新产生或者有更新的页面，而没有变化的页面则不进行爬取，能有效地减少数据下载量并及时更新已爬取过的网页，减少时间和存储空间上的浪费，但该算法的复杂度和实现难度更高。
4. 深层网络爬虫
Web页面按照存在方式可以分为表层页面和深层页面两类。表层页面是指传统搜索引擎可以索引到的页面，以超链接可以到达的静态页面为主。深层页面是指大部分内容无法通过静态链接获取，隐藏在搜索表单后的，需要用户提交关键词后才能获得的Web页面，如一些登录后可见的网页。深层页面中可访问的信息量为表层页面中的几百倍，为目前互联网上发展最快和最大的新型信息资源。

爬虫的合法性与robot.txt协议

1. 爬虫的合法性
网络爬虫领域现在还处于早期的拓荒阶段，虽然已经由互联网行业自身的协议建立起一定的道德规范，但法律部分还在建立和完善中。
目前，多数网站允许将爬虫爬取的数据用于个人使用或者科学研究。但如果将爬取的数据用于其他用途，尤其是转载或者商业用途，则依据各网站的具体情况有不同的后果，严重的将会触犯法律或者引起民事纠纷。

2. robot.txt协议
当使用爬虫爬取网站的数据时，需要遵守网站所有者针对所有爬虫所制定的协议，这便是robot.txt协议。
该协议通常存放在网站根目录下，里面规定了此网站中哪些内容可以被爬虫获取，以及哪些网页内容是不允许爬虫获取的。robot.txt协议并不是一份规范，只是一个约定俗成的协议。

欢迎关注转载、收藏、点赞支持！

网络爬虫 bot web 搜索引擎互联网 url 自动化机器人关键词个人使用商业用途科学研究公众号广泛的主题