爬虫笔记1----爬虫基础
1.爬虫的特点介绍
1.知识点碎片化(面对不同的网站,每个网站都有每个网站的特点,根据不同网站采取不同的技术和手段)
2.学习难度在于要与网站的运维人员和维护人员进行搏斗,网站的网爬是不断升级。
3.学习特点:爬虫的阶段课程是以某网站爬虫的案例进行讲解,一个技术点就是一个案例。
4.后续发展:爬虫需要掌握的东西更要多,可能根据工作需要涉及更多从来没有学过的知识。(难度会持续增高)
5.法律层面,爬虫工作属于灰色地带,目前法律对于爬虫的相关评判还没有一个明确的制度。
6.好记性不如烂笔头,多找一些网站进行爬虫练习。
2.爬虫的概述
模拟浏览器,发送请求,获取响应
网络爬虫(网页蜘蛛)就是模拟客户端(主要是浏览器)发送网络请求,接受请求响应,一种按照一定规则,自动地抓取互联网信息的程序。
原则上,只要是客户端(浏览器)能做的事情,爬虫都能做。
爬虫也只能获取客户端(浏览器)所展示出来的内容
案例1
进入一个网页网站---->右击选定“检查”----->打开开发者工具的·natework---->刷新(进行重新抓包)
3.爬虫的作用
1.数据采集(机器学习舆情监控,数据分析·挖掘)
2.软件测试(虫师)
3.12306抢票
4.网络上的投票
5.网络安全(短息轰炸,web漏洞扫描)
4.爬虫的分类
5.爬虫的流程
流程图的原理
6.http与https的概念和区别
7.爬虫特别关心的请求头和响应头
请求头的格式
爬虫常见的请求头与响应头
8. 常见的响应状态码
所有的状态码都不可信,一切以是否从抓包得到的响应中获取到的数据为准
network中抓包得到的源码才是判断依据,elements中的源码是渲染之后的源码,不能作为判断标准
9.浏览器运行过程与爬虫过程的区别
数据可能在下面三种文件中,在下面三种进行查找:
骨骼文件: html静态文件
肌肉文件: js /ajax请求
皮肤文件: css/font/图片等
抓包过程
根据发送请求的流程分别在骨骼/肌肉/皮肤响应请求中查找数据