点击任务底部进度条的“采集器设置”进入规则编辑界面
添加在起始页之前需要采集的页面,仅采集一次,可以用作模拟登录、获取全局数据等
添加需要采集的目标列表页作为抓取入口
点击“+”号可批量添加网址,勾选“起始页网址设置为内容页网址”可直接采集输入的网址,否则作为列表页需要进行分析提取出内容页网址
从多层次的网址中抓取内容页网址,例如内容页网址不是直接从起始页抓取的,都可以通过多级来获取,适用于小说、影视等连载形式的页面
编写提取内容页网址的规则,默认提取所有网址,如需精准可设置“提取网址规则”
适用于数据分散在多个页面中,如需抓取的字段不在内容页而在其他页面中,则可以使用该功能将其他页面也作为内容源
“添加默认”可以自动设置几个常见的“字段”,能满足大部分文章类型的站点采集
如果目标数据格式比较复杂,可点击“+”自行编写字段规则
数据来源:可选择前置页、起始页、多级页、内容页和关联页
获取方式:有规则匹配、xpath匹配、json提取、自动获取(标题、正文、keywords、description、页面网址、源码、头信息、cookie)、内容标签(调用页面规则中设置的提取内容标签)、数据生成(固定文字、随机数字、时间、随机抽取),还可以从已有字段中提取数据或将多个已有字段组合成新字段。
“数据处理”功能可将字段采集到的值进行加工,每个字段都可单独进行数据处理或者使用通用处理。
处理功能有:html标签过滤、截取字符串、插入内容、内容替换、批量替换、工具箱、翻译、关键词过滤、条件判断、使用函数、调用接口等。
“关键词过滤”和“条件判断”都可对字段进行筛选去除掉不需要的数据,“使用函数”和“调用接口”可以对字段扩展出更多的数据处理方法。
如需抓取分页,点击开启“内容分页”并编写规则,程序会自动抓取每个分页中的字段内容
采集器配置完成后需点击保存按钮,刷新后可在底部看到测试按钮
测试列表页中抓取网址
测试抓取字段
测试抓取分页