当前位置:AIGC资讯 > 数据采集 > 正文

火车头采集器超级详细图文使用指导(面向新手)

我发现无论是官网还是去网页搜索关于火车采集器的教程,大多介绍的并不是那么详细易懂,花费了些功夫在无数报错下终于掌握基础操作;
接下来我将用图文结合的方法尽所能详细地让大家达到易懂易上手的效果。

火车采集器官网下载链接http://www.locoy.com/download

一、打开采集器

咱先来看看开始面板有哪些需要了解的吧(V9.21版)

这个像文件夹一样的图标是用以分组的,和文件夹的作用一样,
旁边的 “+”号 是用来新建任务的,等同于文件夹里的内容
粗浅了解到这里大致差不多了(本章主要是想让新手小白们了解最基础的用法,其他复杂操作的就请移步吧~)

接下来咱以采集商品信息为例实操一下:
链接:https://goikem.store/collections/t-shirt
需采集内容:商品标题、商品价格、商品描述、商品图片

1.点击新建分组,取个名字


2.选中所建分组点击新建任务

二、网址采集规则

1.给任务取个名字:测试
(看着很高级的亚子,但咱只用看第一排起始网址那儿就行)

2.将网址输入

3.点击右下角高级模式(我们需要获取的是目标网址·子页面·里的内容,高级模式可以帮助筛选出子页面的链接)

4.通过观察对比,每个子页面的前缀都是https://goikem.store/products/

5.将 https://goikem.store/products/ 输入到链接过滤下的必须包含中
(链接过滤的意思是,不得包含xxx的存在,和必须包含xxx 的存在)

6.点击网址采集测试

7.成功采集到28个子页面的链接

三、内容采集规则

1. 获取标题
右键打开 ·查看网页源代码

1-1 ctrl+f 搜索标题所在位置(搜索结果不止一个,但咱知道< h1 >为常见标题标签,无基础的找到其他的也是可以的)

1-2 将找到的代码段粘贴进去
(参数为所需获取的内容, * 可以代表任何内容)

1-3 点击右下角 ·测试· 可以看到标题已被获取


2. 获取金额

不难看出,目标36.55在源码中被分开写了,那如何才能将它合在一起呢
这里就有一个小方法:先分别获取后再合并

按照上一个获取标题的步骤粘贴一波,先获取 36,为更好能够灵活获取,将非重要部分尽量用 * 代替

2-1 点击 + 号添加一行取名为 :金额2

2-2 重复2-1的步骤,将【参数】覆盖在55的位置上

2-3 合并
在添加一行金额,可以看到·可选标签·里有咱所有的标签,选择金额1和金额2,中间加一个小点(可以自行加其他的文字符号啥的),进行测试最终得到36.55

3. 获取商品规格

咱提高效率一次性将标签:描述、描述名、描述内容加上,方法和 2. 获取金额一样,得到分开得结果

数据这么多行,但咱目前只获取到了第一行的呀,怎么办呢

很简单,勾选上 ·循环匹配,得到所有描述内容

注意!!在左下方循环配置里将分割符选**【换行】**(方便查看循环后的内容,不然哼哼~眼睛要遭老罪咯)

需要将上述表格内容展示为 “ sku : CY-!79974 ” 的形式,参考 2-3 合并 操作


4. 获取图片

4-1 如下图所示,找到图片链接位置


4-2 提取img标签里的内容

之前咱一直用的正则提取,这次的代码量较大,换成前后截取比较方便
仔细观察,发现每行img标签都由 < figure style=“padding-bottom:133.33%”></ figure > 标签所包裹,
放进去测试得到img的全部内容,但是咱只需要data-src里的呀

4-3 精准获取data-src里链接内容

在·数据处理·下点击 + 号 选择·字符截取
具体操作如下图

十行图片链接轻松到手

四、 查看获取的所有数据

保存并退出回到开始页

五、 下载图片

如图所示

六、 内容发布规则

保存数据
文件格式按所需选择

七、 发布

8-1 不过,需注意的是: 如果你已按步骤 5. 查看获取的所有数据 操作过,如下图红框所示,已经有28个数据了,那么需要右键选择 ·清空采集数据 ,先清除缓存数据

8-2 再勾选发布
如果保存位置选择的是桌面,那么将会保存在桌面,其他同理

相信大家完成这些操作后对火车采集器的操作有了大致的了解和体会

希望这篇笔记可以帮助到更多有需要的朋友们!!

如有不懂之处或建议,欢迎评论私信,看到了会及时回复哒

更新时间 2023-11-08