后羿采集器快速入门
一、前言
不知道大家有没有苦恼于如何快速获取网页上的数据?想要进行大量重复性的操作但又要花费大量时间经历学习爬虫,这对于没啥编程基础的朋友们来说简直太不友好了!那么有没有一个软件,能够通过傻白甜式的操作,达到跟爬虫脚本一样的效果呢?
今天小编就要来推荐一款数据采集神器:后羿采集器啦!
后羿采集器(网站点这里!)是一款基于人工智能技术(已经到了人均人工智能吗)的数据采集软件,它能借助计算机视觉的技术和概念,自动识别采集内容,即使你没有任何编程基础,也能完成数据采集工作。例如下面的结构化数据采集,不需要编写一条语句!
说的再多不如动手试一试,下面本文将带来最基础的软件操作教程,保证一看就会!
二、软件安装
在官网https://www.houyicaiji.com/上选择立即下载,一路安装即可。
三、软件使用
安装好后打开的界面如下图所示,是不是感到一阵茫然?没关系,我们一项一项来看~
首先呢,我们做一个项目当然要对项目进行归档啦,这里我们需要新建一个分组!
这个加号图标就是新建分组!我们尝试创建一个分组Test01。
此时,我们可以在左侧栏找到Test01,点击看看,目前还没有任何任务
我们这里直接使用智能模式创建一个新任务!
不出意外的话,会弹出如下界面。我们先试试手动输入网址!
譬如,我们选择国科大新闻网进行数据采集:
将该网址输入到采集器中:
选择立即创建,很快啊,我们就能在采集器中看到该网页了!
通过上图我们可以发现,采集器自动识别了列表类型的页面,并且在下页
显示为高亮!
如果不能正确识别的话,没有关系,我们还能手动进行监督修正!
这个瀑布流分页适用于微博评论那种下拉渲染的列表。
如果我们只需要前5页,可以选择设置采集范围
:
好了,我们现在捕捉到了容器列表,下一步的工作就是应该深入到内容文件中了!
选择深入采集
,或者直接手动点击内容页面:
采集器会自动打开内容连接,并且进行识别!
为了收集到结构化数据,我们可以点击添加字段
:
此时,我们的鼠标样式变成了一根魔法棒,点哪里哪里亮!
我们只需要点击我们需要的文本,就能将其录入字段啦!
那么接下来,需要做的就是数据预处理了!右击字段,我们可以修改字段名:
此时我们发现,这个时间不对呀,急急急,有没有办法修改呢?还是右键,数据处理
:
这里我们新建一个步骤,可以按照正则、文本等等方式进行处理!
将文本替换掉,就得到了我们需要的数据!
这里我们只做个简单的演示,其他功能还请自行探索~
处理完单页后,我们就可以开始采集啦!
选择启动,然后就会转跳到提取页面:
此时我们看到,程序已经在逐个提取格式化数据了。
采集完成后,我们就可以将数据导出了。
最终就能收集到结构化的数据啦!
我们也可以将我们的任务导出,让其他人进行复现!
在左框框上点击这个像下载一样的图标!
然后就能选择我们之前保存的任务进行导入啦!最后的步骤也就是再点击一下开始采集
!