目录
一、爬虫产生背景
如果我们需要大量数据,有哪些获取数据的方式呢?
(1)企业产生的数据
(2)数据平台购买的数据
(3)政府/机构公开的数据
(4)数据管理咨询公司的数据
(5)爬取的网络数据
二、什么是网络爬虫?
三、爬虫的用途
四、爬虫的分类
按照使用场景进行分类:
按照爬取形式进行分类:
按照爬取数据的存在方式进行分类:
五、网络爬虫的主要开发语言有Java,Python和C++,为什么选择Python开发呢?
(1)抓取网页本身的接口
(2)网页抓取后的处理
(3)开发效率高
(4)上手快
六、爬虫具体能做些什么呢?
一、爬虫产生背景
搜索引擎使用了网络爬虫不停地从互联网抓取网站数据,并将网站镜像保存在本地,这才能为大众提供信息检索的功能。
目前的互联网已经迈入大数据时代,通过对海量的数据进行分析,能够产生极大的商业价值。
如果我们需要大量数据,有哪些获取数据的方式呢?
(1)企业产生的数据
(2)数据平台购买的数据
(3)政府/机构公开的数据
(4)数据管理咨询公司的数据
(5)爬取的网络数据
无论是搜索引擎,还是个人或单位获取目标数据,都需要从公开网站上爬取大量数据,在此需求下,爬虫技术应运而生,并迅速发展成为一门成熟的技术。
二、什么是网络爬虫?
如果说网络像一张网,那么爬虫就是网上的一只小虫子,在网上爬行的过程中遇到了数据,就把它抓取下来。
网络爬虫,又称为网页蜘蛛、网络机器人,是一种按照一定的规则,自动请求万维网网站并提取网络数据的程序或脚本。
注意:这里的数据是指互联网上公开的并且可以访问到的网页信息,而不是网站的后台信息(没有权限访问),更不是用户注册的信息(非公开的)。(当然可以,后果嘛,自己品!)
三、爬虫的用途
四、爬虫的分类
按照使用场景进行分类:
通用爬虫:又称全网爬虫,将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。
聚焦爬虫:又称主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关的页面的网络爬虫
按照爬取形式进行分类:
累积式爬虫:累积式爬虫是指从某一个时间点开始,通过遍历的方式抓取系统所能允许存储和处理的所有网页
增量式爬虫:在具有一定量规模的网络页面集合的基础上,采用更新数据的方式选取已有集合中的过时网页进行抓取,以保证所抓取到的数据与真实网络数据足够接近。
按照爬取数据的存在方式进行分类:
表层爬虫:爬取表层网页的爬虫叫做表层爬虫。表层网页是指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的Web页面。
深层爬虫:爬取深层网页的爬虫就叫做深层爬虫。深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的 Web 页面。
五、网络爬虫的主要开发语言有Java,Python和C++,为什么选择Python开发呢?
(1)抓取网页本身的接口
Python的urllib包提供了较为完整的访问网页文档的API;相比与其他静态编程语言(如Java、C#、C++),Python抓取网页文档的接口更简洁
(2)网页抓取后的处理
Python的Beautiful Soup提供了简洁的文档处理功能,能用极短的代码完成大部分文档的处理。
(3)开发效率高
因为爬虫的具体代码得根据网站不同而修改的,而Python这种灵活的脚本语言特别适合这种任务。
(4)上手快
网络上Python的教学资源很多,便于大家学习,出现问题也很容易找到相关资料。另外,Python还有强大的成熟爬虫框架的支持,比如Scrapy。
六、爬虫具体能做些什么呢?
全国疫情图
网评
人工智能