爬虫的几种尺寸
规模 小规模,数据量小,爬取速度不明显 中规模,数据规模大,爬取速度明显 大规模,搜索引擎,爬取速度关键 作用 爬取网页,玩转网页 爬取网站、系列网站 爬取全网 使用库 Requests库 Scrapy库 定制开发爬虫带来的问题
对服务器的骚扰问题 可能因为信息的产权造成法律问题 对个人用户隐私形成泄露爬虫的的限制
来源审查:判断User-Agent 检查来访http协议头的User-Agent域,只响应浏览器或者友好爬虫的的访问。 发布公告:Robots协议 告知所有爬虫网站的爬取策略,要求爬虫遵守。Robots协议
Robots Exclusion Standrad 网络爬虫抓排除标准 作用:网站告知网络爬虫哪些页面可以抓取,哪些不行。 形式:在网站的根目录下放置robots.txt文件。
robots协议基本语法User-Agent:* #爬虫名称
Disallow:/ #网站根目录正则匹配
百度的robots.txt 部分截图样式
robots协议的使用 网络爬虫: 自动或者人工识别robots.txt,再进行内容爬取 约束性: Robots协议是建议而非约束性的,网络爬虫可以不遵守,但存在法律风险。