采集器设置

点击任务底部进度条的“采集器设置”进入规则编辑界面

  • 输入采集规则名称(选填)/ 目标网站编码(可自动检测)/ 内容解析(可默认)
  • 页面渲染:自动加载出ajax内容,适用于js脚本较多的页面
  • 自动补全网址:将网页中的相对地址(不包含域名的网址)转为绝对网址(包含域名)
  • 重复采集网址:默认会将采集过的内容页排重处理,允许重复采集适用于更新频繁的动态页面
  • 网址中文转码:网址中如果存在中文、特殊字符和空格会导致抓取失败,需要对中文、特殊字符和空格进行转码才能正常解析
  • 网址去除锚点:通常情况下网址中有锚点(#)和无锚点解析出的内容是相同的,为避免采集到重复内容可去除网址锚点
  • 网址采集顺序:可选择乱序、倒序、正常顺序采集内容页网址
  • 正则匹配模式:使用正则规则时的模式,默认情况下仅忽略大小写
  • 请求头信息:以适应需要登录的、手机浏览的等界面,可分别设置抓取页面和下载图片的请求头信息

采集器设置

前置页网址(选填)

添加在起始页之前需要采集的页面,仅采集一次,可以用作模拟登录、获取全局数据等

采集器设置-前置页网址

采集器设置-添加前置页网址规则

起始页网址

添加需要采集的目标列表页作为抓取入口

点击“+”号可批量添加网址,勾选“起始页网址设置为内容页网址”可直接采集输入的网址,否则作为列表页需要进行分析提取出内容页网址

采集器设置-起始页网址

多级页网址(选填)

从多层次的网址中抓取内容页网址,例如内容页网址不是直接从起始页抓取的,都可以通过多级来获取,适用于小说、影视等连载形式的页面

采集器设置-多级页网址

采集器设置-添加多级页网址规则

内容页网址

编写提取内容页网址的规则,默认提取所有网址,如需精准可设置“提取网址规则”

采集器设置-内容页网址

关联页网址(选填)

适用于数据分散在多个页面中,如需抓取的字段不在内容页而在其他页面中,则可以使用该功能将其他页面也作为内容源

采集器设置-关联页网址

采集器设置-添加关联页网址规则

获取内容

“添加默认”可以自动设置几个常见的“字段”,能满足大部分文章类型的站点采集

如果目标数据格式比较复杂,可点击“+”自行编写字段规则

采集器设置-字段

数据来源:可选择前置页、起始页、多级页、内容页和关联页

获取方式:有规则匹配、xpath匹配、json提取、自动获取(标题、正文、keywords、description、页面网址、源码、头信息、cookie)、内容标签(调用页面规则中设置的提取内容标签)、数据生成(固定文字、随机数字、时间、随机抽取),还可以从已有字段中提取数据或将多个已有字段组合成新字段。

采集器设置-添加字段

数据处理”功能可将字段采集到的值进行加工,每个字段都可单独进行数据处理或者使用通用处理。

处理功能有:html标签过滤、截取字符串、插入内容、内容替换、批量替换、工具箱、翻译、关键词过滤、条件判断、使用函数、调用接口等。

“关键词过滤”和“条件判断”都可对字段进行筛选去除掉不需要的数据,“使用函数”和“调用接口”可以对字段扩展出更多的数据处理方法。

采集器设置-数据处理

如需抓取分页,点击开启“内容分页”并编写规则,程序会自动抓取每个分页中的字段内容

采集器设置-内容分页

测试规则

采集器配置完成后需点击保存按钮,刷新后可在底部看到测试按钮

测试列表页中抓取网址

采集器设置-测试抓取内容页网址

测试抓取字段

采集器设置-测试抓取字段

测试抓取分页

采集器设置-测试抓取分页