当前位置:AIGC资讯 > 数据采集 > 正文

后羿采集器快速入门----一款没有编程经验也能轻松使用的数据采集软件

后羿采集器快速入门

一、前言

不知道大家有没有苦恼于如何快速获取网页上的数据?想要进行大量重复性的操作但又要花费大量时间经历学习爬虫,这对于没啥编程基础的朋友们来说简直太不友好了!那么有没有一个软件,能够通过傻白甜式的操作,达到跟爬虫脚本一样的效果呢?

今天小编就要来推荐一款数据采集神器:后羿采集器啦!

后羿采集器(网站点这里!)是一款基于人工智能技术(已经到了人均人工智能吗)的数据采集软件,它能借助计算机视觉的技术和概念,自动识别采集内容,即使你没有任何编程基础,也能完成数据采集工作。例如下面的结构化数据采集,不需要编写一条语句!

说的再多不如动手试一试,下面本文将带来最基础的软件操作教程,保证一看就会!

二、软件安装

在官网https://www.houyicaiji.com/上选择立即下载,一路安装即可。

三、软件使用

安装好后打开的界面如下图所示,是不是感到一阵茫然?没关系,我们一项一项来看~

首先呢,我们做一个项目当然要对项目进行归档啦,这里我们需要新建一个分组!

这个加号图标就是新建分组!我们尝试创建一个分组Test01。

此时,我们可以在左侧栏找到Test01,点击看看,目前还没有任何任务

我们这里直接使用智能模式创建一个新任务!

不出意外的话,会弹出如下界面。我们先试试手动输入网址!

譬如,我们选择国科大新闻网进行数据采集:

将该网址输入到采集器中:

选择立即创建,很快啊,我们就能在采集器中看到该网页了!

通过上图我们可以发现,采集器自动识别了列表类型的页面,并且在下页显示为高亮!

如果不能正确识别的话,没有关系,我们还能手动进行监督修正!

这个瀑布流分页适用于微博评论那种下拉渲染的列表。

如果我们只需要前5页,可以选择设置采集范围

好了,我们现在捕捉到了容器列表,下一步的工作就是应该深入到内容文件中了!

选择深入采集,或者直接手动点击内容页面:

采集器会自动打开内容连接,并且进行识别!

为了收集到结构化数据,我们可以点击添加字段

此时,我们的鼠标样式变成了一根魔法棒,点哪里哪里亮!

我们只需要点击我们需要的文本,就能将其录入字段啦!

那么接下来,需要做的就是数据预处理了!右击字段,我们可以修改字段名:

此时我们发现,这个时间不对呀,急急急,有没有办法修改呢?还是右键,数据处理

这里我们新建一个步骤,可以按照正则、文本等等方式进行处理!

将文本替换掉,就得到了我们需要的数据!

这里我们只做个简单的演示,其他功能还请自行探索~

处理完单页后,我们就可以开始采集啦!

选择启动,然后就会转跳到提取页面:

此时我们看到,程序已经在逐个提取格式化数据了。

采集完成后,我们就可以将数据导出了。

最终就能收集到结构化的数据啦!

我们也可以将我们的任务导出,让其他人进行复现!

在左框框上点击这个像下载一样的图标!

然后就能选择我们之前保存的任务进行导入啦!最后的步骤也就是再点击一下开始采集!

更新时间 2023-11-08