后羿采集器快速入门----一款没有编程经验也能轻松使用的数据采集软件

后羿采集器快速入门

不知道大家有没有苦恼于如何快速获取网页上的数据？想要进行大量重复性的操作但又要花费大量时间经历学习爬虫，这对于没啥编程基础的朋友们来说简直太不友好了！那么有没有一个软件，能够通过傻白甜式的操作，达到跟爬虫脚本一样的效果呢？

今天小编就要来推荐一款数据采集神器：后羿采集器啦！

后羿采集器(网站点这里！)是一款基于人工智能技术(已经到了人均人工智能吗)的数据采集软件，它能借助计算机视觉的技术和概念，自动识别采集内容，即使你没有任何编程基础，也能完成数据采集工作。例如下面的结构化数据采集，不需要编写一条语句！

说的再多不如动手试一试，下面本文将带来最基础的软件操作教程，保证一看就会！

在官网https://www.houyicaiji.com/上选择立即下载，一路安装即可。

安装好后打开的界面如下图所示，是不是感到一阵茫然？没关系，我们一项一项来看~

首先呢，我们做一个项目当然要对项目进行归档啦，这里我们需要新建一个分组！

这个加号图标就是新建分组！我们尝试创建一个分组Test01。

此时，我们可以在左侧栏找到Test01，点击看看，目前还没有任何任务

我们这里直接使用智能模式创建一个新任务！

不出意外的话，会弹出如下界面。我们先试试手动输入网址！

譬如，我们选择国科大新闻网进行数据采集：

将该网址输入到采集器中：

选择立即创建，很快啊，我们就能在采集器中看到该网页了！

通过上图我们可以发现，采集器自动识别了列表类型的页面，并且在下页显示为高亮！

如果不能正确识别的话，没有关系，我们还能手动进行监督修正！

这个瀑布流分页适用于微博评论那种下拉渲染的列表。

如果我们只需要前5页，可以选择设置采集范围：

好了，我们现在捕捉到了容器列表，下一步的工作就是应该深入到内容文件中了！

选择深入采集，或者直接手动点击内容页面：

采集器会自动打开内容连接，并且进行识别！

为了收集到结构化数据，我们可以点击添加字段：

此时，我们的鼠标样式变成了一根魔法棒，点哪里哪里亮！

我们只需要点击我们需要的文本，就能将其录入字段啦！

那么接下来，需要做的就是数据预处理了！右击字段，我们可以修改字段名：

此时我们发现，这个时间不对呀，急急急，有没有办法修改呢？还是右键，数据处理：

这里我们新建一个步骤，可以按照正则、文本等等方式进行处理！

将文本替换掉，就得到了我们需要的数据！

这里我们只做个简单的演示，其他功能还请自行探索~

处理完单页后，我们就可以开始采集啦！

选择启动，然后就会转跳到提取页面：

此时我们看到，程序已经在逐个提取格式化数据了。

采集完成后，我们就可以将数据导出了。

最终就能收集到结构化的数据啦！

我们也可以将我们的任务导出，让其他人进行复现！

在左框框上点击这个像下载一样的图标！

然后就能选择我们之前保存的任务进行导入啦！最后的步骤也就是再点击一下开始采集!