简介
八爪鱼采集器是一款全网通用的互联网数据采集器,模拟人浏览网页的行为,通过简单的页面点选,生成自动化的采集流程,从而将网页数据转化为结构化数据,存储于EXCEL或数据库等多种形式。并提供基于云计算的大数据云采集解决方案,实现数据采集。是数据一键采集平台。很适合新手使用。采集原理类似火车头采集器,用户设定抓取规则,软件执行。八爪鱼的优点是提供了常见抓取网站的模板,如果不会写规则, 就直接用套用模板就好了。
它是基于浏览器内核实现可视化抓取数据,所以存在卡顿、采集数据慢的现象。不过整体来说还是不错的,毕竟能基本满足新手在短时间抓取数据的场景,比如翻页查询,Ajax 动态加载数据等。
优点分析
开源,免费,操作极为简单,我们可以把他理解成一个简单的爬虫,即使你不会爬虫,也可以通过它轻松爬取到想要的数据
缺点分析
因为我们是白嫖的,所以爬取速度比较慢
下载安装
网站:https://www.bazhuayu.com/
进入网站 点击免费下载
点击立刻下载 注意选择操作系统 我下的是windows的,mac通过下面的按钮也能下载到
下载到本地 然后开始安装 安装步骤傻瓜式安装,就不叙述了,注意安装目录即可
安装完成后打开应用就是这个样子
然后可以登录或者注册账号,根据自己的需求操作即可
这个就是登录页面
我们可以自己选择采集数据都模板,也可以使用它推荐的热门模板,这里我就直接使用推荐的模板了,注意,有的模板是收费的!
操作步骤
1 登陆后找到主页面,选择主页的简易采集,如图:
2 选择简易采集中选择模板,有的模板收费!
那我们就选择一个不收费的模板去采集数据,这里我们选择百度
3 进入到百度版块后可以进行具体规则模板的选择,选择百度资讯-百家号搜索采集
可以看到这个是免费的,我们就用它了
4 点击立即使用进入到信息设置页面,根据个人需要设置相关关键词,例如此处我们输入的关键字为“河南暴雨”,并设置分页(搜索页)为10页的数据,如图:
5 点击保存并启动后就可以进行数据采集了,以下是本地采集效果示例,如图:
选择本地采集,普通模式,也就是说把数据保存到本地而不是云服务,当然,普通模式肯定比加速模式慢的,白嫖就知足吧
然后就会开始收集数据,普通模式有点慢,我们需要耐心等待,如果觉得收集一些就够了,可以点击右侧的暂停和停止按钮来终止
过了一会就收集到数据了,可以看到已经收集到了一些数据了
我们将收集的数据导出
可以看到 支持多种导出方式,不进支持excel,json等格式,也是可以直接导出到数据库!
导出数据
导出到数据库我还没试过,后面我会试下补充上,这样就省去了我从excel导入到mysql的操作