python 爬虫系列(0) --- 初识网络爬虫

规模小规模，数据量小，爬取速度不明显中规模，数据规模大，爬取速度明显大规模，搜索引擎，爬取速度关键作用爬取网页，玩转网页爬取网站、系列网站爬取全网使用库 Requests库 Scrapy库定制开发

对服务器的骚扰问题可能因为信息的产权造成法律问题对个人用户隐私形成泄露

来源审查:判断User-Agent 检查来访http协议头的User-Agent域，只响应浏览器或者友好爬虫的的访问。发布公告:Robots协议告知所有爬虫网站的爬取策略，要求爬虫遵守。

Robots Exclusion Standrad 网络爬虫抓排除标准作用：网站告知网络爬虫哪些页面可以抓取，哪些不行。形式：在网站的根目录下放置robots.txt文件。

robots协议基本语法

User-Agent:*     #爬虫名称
Disallow:/       #网站根目录正则匹配

百度的robots.txt 部分截图样式

robots协议的使用网络爬虫: 自动或者人工识别robots.txt，再进行内容爬取约束性: Robots协议是建议而非约束性的，网络爬虫可以不遵守，但存在法律风险。