一、爬虫的步骤
1、 需求分析(人做),简单说就是找爬虫的对象,你想具体爬啥。
2、找到你爬取的网站
3、下载request(网站的返回内容)
4、再利用正则表达式-re,xpath-lxml(通过返回的信息找到需要爬取的数据内容)
5、然后就是找到mysql(存储找到的数据内容)
二、这步就是关于requests
这是返回url的网页信息,图片视频等等…
request这是属于一个类,就好比重新写个__str__方法()返回值,如果有网页的内容,返值就写200
三、网址协议(http)
这个概括不出来,可以自行去百度理解含义
四、去掉重复的内容
1.可以通过函数,比如hash来实现
2.图片类型
3.针对url,用hash对url进行分组,对应出来的数字来调用位图