数据采集工具:八爪鱼
目录
一.八爪鱼介绍
二.安装八爪鱼
三.采集原理
四.快速入门
五.登陆
六.基本排错
七.提取、导出数据
一.八爪鱼介绍
八爪鱼是一款通用的网页数据采集器,能够采集98%的网页。
可简单快速地将网页数据转化为结构化数据,存储为EXCEL或数据库等多种形式,并且提供基于云计算的大数据云采集解决方案。
八爪鱼作为一款通用的网页数据采集器,并不针对于某一网站某一行业的数据进行采集,而是网页上所能看到或网页源码中有的文本信息,几乎都能采集。
官网:https://www.bazhuayu.com/
二.安装八爪鱼
1.进入官网注册,因为下载使用要登录才能使用各项功能。
2.请双击OctopusSetup.exe开始安装。
3.安装完成后在开始菜单或者桌面均可以找到八爪鱼采集器快捷方式。
4.启动八爪鱼采集器并登陆。
安装提示:
本软件需要.NET3.5 SP1支持,Win 7已经内置支持,XP系统需要安装,部分Win10系统可能也需要安装。 软件会在安装时自动检测是否安装了.NET 3.5 SP1,如果没有安装则会自动从微软官方在线安装, 国内在线安装速度很慢,建议先从:http://pan.baidu.com/s/1nu5VbTJ 下载安装.NET 3.5 SP1,然后再安装八爪鱼采集器。
三.采集原理
八爪鱼采集器的核心原理是:基于Firefox内核浏览器,通过模拟人浏览网页的行为(如打开网页,点击网页中的某个按钮等操作),对网页内容进行全自动提取。
内置火狐内核浏览器,模拟人浏览网页、复制数据的行为, 通过设计工作流程,自动化采集数据。
四.快速入门
在八爪鱼客户端中,采集和导出数据主要经过以下3个步骤:
1、选择采集模式
2、配置任务
3、配置完成后,选择采集方式,本地采集或云采集
4、采集完成,导出数据
选择采集模式
简易模式下内置了国内一些主流网站的采集规则。如果要采集的网站和字段在简易模式的模板中,可直接调用。 注意:可自定义修改参数,以采集所需数据。 建议: 如果不能确定需要多少页数据,建议打开网站看一看每页数据量做简单计算后设置,如果还是不能确定,建议稍微多设置一点翻页,因为多采集的数据可以在Excel当中进行删减,如果少采集了数据,简易模式下只能从头开始重新采集。简易模式
智能模式下,只需要输入网址,点击搜索,八爪鱼便会自动采集网页数据并以表格形式呈现出来。可以进行删除或修改字段、翻页、数据导出等操作,以excel格式导出。 试用情况:网页中数据以表格或列表形式呈现的网页。例如电商网站商品列表的商品信息、一些生活服务类的网站等等。 此外,智能模式还可以输入关键词搜索数据。比如搜索“天气”,点击查询后,可以跳转到数多多规则市场。在数多多上可以直接查找到相关的数据或规则。用户可以通过下载,获取数据或规则,规则可以放到八爪鱼中运行,以获取想要的数据。智能模式