需要设置web执行命令的权限,以宝塔面板为例,打开站点目录,在根目录文件夹中点击“权限”
将读取、写入和执行全部勾选即可
因为web服务器有运行时间限制,所以只要采集执行时间太长都会导致程序中断,需要修改web服务器的超时时间
IIS服务器:
apache服务器:
apache目录\conf\extra\httpd-default.conf,修改Timeout
nginx服务器:
nginx目录\conf\nginx.conf,修改fastcgi_connect_timeout
修改以上的参数值可让采集不再中断,修改完后记得重启服务器!其他服务器请自行百度
如果你是虚拟主机无法修改配置,唯一方法就是设置采集数量,每次不要采集太多,一般web服务器运行时间为30秒,尽量不要超时!
php可执行文件:默认自动识别,识别不了,在linux系统中关闭目录跨站保护,手动输入:可输入环境变量名“php”(需要系统中已配置)或输入可执行文件路径,注意不是php目录,一般windows中文件为“php目录/php.exe”,linux中文件为“php目录/bin/php”
触发不了采集:
谷歌浏览器安装:windows百度下载安装即可,linux点击查看
配置谷歌路径:可输入环境变量名“chrome”(需要系统中已配置),或者输入可执行文件路径:一般windows中文件为“浏览器目录/chrome.exe”,linux中文件为“浏览器目录/bin/google-chrome”,注意:浏览器版本不同可能会导致可执行文件名不同!
手机移动端页面:开启请求头信息,设置UserAgent浏览器标识
需要登录的页面:开启请求头信息,设置Cookie缓存数据 如何获取cookie
采集到的网址没有域名:开启自动补全网址
规则中的特殊字符识别不了:使用正则规则的时候特殊字符必须使用“\”转义才能使用,和正则冲突的字符有:^$.*+|?[]{}()
页面渲染:使用渲染和不使用时的html源码是不一样的,规则可能不通用!
浏览器中获取到的xpath在采集器中没有用:可能该xpath的对象是渲染出来的元素,采集器默认只能抓取原始html源码的内容,渲染出来的元素需要开启“页面渲染”功能,或者分析相应的js链接来抓取,使用“测试»分析网页”可以看到采集器实际抓取到的页面
本地cms程序检测不出来:
错误日志文件太多占用空间:可以在“站点设置”中关闭,后台首页使用“清除缓存”可以清空日志
应用程序无法访问:应用需要配置伪静态才能使用,配置文件在蓝天采集器public目录中:htaccess-nginx(nginx),htaccess-apache(apache),htaccess-iis(iis)用文本格式打开按照提示修改即可!
函数插件创建后不显示:需要在“云端»仓库»函数插件”中点击开启