当前位置:AIGC资讯 > 数据采集 > 正文

SpiderFlow(图形化爬虫)

SpiderFlow(图形化爬虫)

url

https://github.com/ssssssss-team/spider-flow

官网

https://www.spiderflow.org

0.简介

spider-flow 是一个爬虫平台,以图形化方式定义爬虫流程,无需代码即可实现一个爬虫

特性

支持css选择器、正则提取 支持JSON/XML格式 支持Xpath/JsonPath提取 支持多数据源、SQL select/insert/update/delete 支持爬取JS动态渲染的页面 支持代理 支持二进制格式 支持保存/读取文件(csv、xls、jpg等) 常用字符串、日期、文件、加解密、随机等函数 支持流程嵌套 支持插件扩展(自定义执行器,自定义函数、自定义Controller、类型扩展等) 支持HTTP接口

插件

redis插件 mongodb插件 IP代理池插件 OSS插件 OCR插件 Selenium插件

1.安装

git clone https://hub.fastgit.org/ssssssss-team/spider-flow.git

然后用IDEA打开项目,等待解析和下载maven插件。

导入数据库,基础表:spider-flow/db/spiderflow.sql

打开并运行org.spiderflow.SpiderApplication.java

打开浏览器,输入(http://localhost:8088/)

注意修改

里的 数据库 用户名和密码。

另外我的IDEA jdk不支持jdk.nashorn

所以我用openjdk的nashorn才行。

2.运行

浏览器输入localhost:8088

然后根据官方文档设计爬虫任务即可。

3.总结

优点

无需代码 图形化操作 快速上手

缺点

无法执行较复杂的任务 灵活性差

更新时间 2023-11-08