蓝天采集器(SkyCaiji)网页爬虫系统,采用PHP+Mysql开发已经过6年迭代更新,成熟稳定可部署在云端服务器和虚拟主机中,可视化操作使用浏览器即可采集数据,功能包括数据挖掘、分析、清洗、处理、发布等。软件免费无限制使用,可二次开发,自定义规则和插件自由度高,简单易操作。
支持无限制多级、多页、分页和RPA流程采集,自定义采集规则(支持正则、XPATH、JSON等)精准匹配任意信息流,几乎能采集所有类型的网页,支持模拟浏览器点击、滚动等操作抓取页面渲染后的内容。数据采集助力垂直大模型AIGC内容创作,可解决大模型应用缺少训练数据的问题!
可将数据存储为Excel文件、导入数据库、发布到各类cms程序,支持远程api发布或自定义数据发布插件,还可以将采集到的数据存入本地数据集为他人提供数据接口服务!
该软件类似CMS程序,完全跨平台,任何系统中都能安装,在虚拟主机中也能良好运行。实现定时定量全自动采集发布,简单操作即可持续采集!