【爬虫操作具体的步骤】

一、爬虫的步骤
1、需求分析（人做），简单说就是找爬虫的对象，你想具体爬啥。

2、找到你爬取的网站

3、下载request（网站的返回内容）

4、再利用正则表达式-re,xpath-lxml(通过返回的信息找到需要爬取的数据内容)

5、然后就是找到mysql(存储找到的数据内容)

二、这步就是关于requests

这是返回url的网页信息，图片视频等等…

request这是属于一个类，就好比重新写个__str__方法（）返回值，如果有网页的内容，返值就写200

三、网址协议（http）
这个概括不出来，可以自行去百度理解含义

四、去掉重复的内容
1.可以通过函数，比如hash来实现

2.图片类型

3.针对url,用hash对url进行分组，对应出来的数字来调用位图