SpiderFlow(图形化爬虫)
url
https://github.com/ssssssss-team/spider-flow
官网
https://www.spiderflow.org
0.简介
spider-flow 是一个爬虫平台,以图形化方式定义爬虫流程,无需代码即可实现一个爬虫
特性
支持css选择器、正则提取 支持JSON/XML格式 支持Xpath/JsonPath提取 支持多数据源、SQL select/insert/update/delete 支持爬取JS动态渲染的页面 支持代理 支持二进制格式 支持保存/读取文件(csv、xls、jpg等) 常用字符串、日期、文件、加解密、随机等函数 支持流程嵌套 支持插件扩展(自定义执行器,自定义函数、自定义Controller、类型扩展等) 支持HTTP接口插件
redis插件 mongodb插件 IP代理池插件 OSS插件 OCR插件 Selenium插件1.安装
git clone https://hub.fastgit.org/ssssssss-team/spider-flow.git
然后用IDEA打开项目,等待解析和下载maven插件。
导入数据库,基础表:spider-flow/db/spiderflow.sql
打开并运行org.spiderflow.SpiderApplication.java
打开浏览器,输入(http://localhost:8088/)
注意修改
里的 数据库 用户名和密码。
另外我的IDEA jdk不支持jdk.nashorn
所以我用openjdk的nashorn才行。
2.运行
浏览器输入localhost:8088
然后根据官方文档设计爬虫任务即可。