采集器设置

点击任务底部进度条的“采集器设置”进入规则编辑界面

输入采集规则名称（选填）/ 目标网站编码（可自动检测）/ 内容解析（可默认）
页面渲染：自动加载出ajax内容，适用于js脚本较多的页面
自动补全网址：将网页中的相对地址（不包含域名的网址）转为绝对网址（包含域名）
重复采集网址：默认会将采集过的内容页排重处理，允许重复采集适用于更新频繁的动态页面
网址中文转码：网址中如果存在中文、特殊字符和空格会导致抓取失败，需要对中文、特殊字符和空格进行转码才能正常解析
网址去除锚点：通常情况下网址中有锚点（#）和无锚点解析出的内容是相同的，为避免采集到重复内容可去除网址锚点
网址采集顺序：可选择乱序、倒序、正常顺序采集内容页网址
正则匹配模式：使用正则规则时的模式，默认情况下仅忽略大小写
请求头信息：以适应需要登录的、手机浏览的等界面，可分别设置抓取页面和下载图片的请求头信息

前置页网址（选填）

添加在起始页之前需要采集的页面，仅采集一次，可以用作模拟登录、获取全局数据等

起始页网址

添加需要采集的目标列表页作为抓取入口

点击“+”号可批量添加网址，勾选“起始页网址设置为内容页网址”可直接采集输入的网址，否则作为列表页需要进行分析提取出内容页网址

多级页网址（选填）

从多层次的网址中抓取内容页网址，例如内容页网址不是直接从起始页抓取的，都可以通过多级来获取，适用于小说、影视等连载形式的页面

内容页网址

编写提取内容页网址的规则，默认提取所有网址，如需精准可设置“提取网址规则”

关联页网址（选填）

适用于数据分散在多个页面中，如需抓取的字段不在内容页而在其他页面中，则可以使用该功能将其他页面也作为内容源

获取内容

“添加默认”可以自动设置几个常见的“字段”，能满足大部分文章类型的站点采集

如果目标数据格式比较复杂，可点击“+”自行编写字段规则

数据来源：可选择前置页、起始页、多级页、内容页和关联页

获取方式：有规则匹配、xpath匹配、json提取、自动获取（标题、正文、keywords、description、页面网址、源码、头信息、cookie）、内容标签（调用页面规则中设置的提取内容标签）、数据生成（固定文字、随机数字、时间、随机抽取），还可以从已有字段中提取数据或将多个已有字段组合成新字段。

“数据处理”功能可将字段采集到的值进行加工，每个字段都可单独进行数据处理或者使用通用处理。

处理功能有：html标签过滤、截取字符串、插入内容、内容替换、批量替换、工具箱、翻译、关键词过滤、条件判断、使用函数、调用接口等。

“关键词过滤”和“条件判断”都可对字段进行筛选去除掉不需要的数据，“使用函数”和“调用接口”可以对字段扩展出更多的数据处理方法。

如需抓取分页，点击开启“内容分页”并编写规则，程序会自动抓取每个分页中的字段内容

测试规则

采集器配置完成后需点击保存按钮，刷新后可在底部看到测试按钮

测试列表页中抓取网址

测试抓取字段

测试抓取分页

上一篇：创建采集任务

下一篇：字段