当前位置:AIGC资讯 > 数据采集 > 正文

【爬虫操作具体的步骤】

一、爬虫的步骤
1、 需求分析(人做),简单说就是找爬虫的对象,你想具体爬啥。

2、找到你爬取的网站

3、下载request(网站的返回内容)

4、再利用正则表达式-re,xpath-lxml(通过返回的信息找到需要爬取的数据内容)

5、然后就是找到mysql(存储找到的数据内容)

二、这步就是关于requests

这是返回url的网页信息,图片视频等等…

request这是属于一个类,就好比重新写个__str__方法()返回值,如果有网页的内容,返值就写200

三、网址协议(http)
这个概括不出来,可以自行去百度理解含义

四、去掉重复的内容
1.可以通过函数,比如hash来实现

2.图片类型

3.针对url,用hash对url进行分组,对应出来的数字来调用位图

更新时间 2023-11-08