爬虫笔记----爬虫基础

爬虫笔记1----爬虫基础

1.爬虫的特点介绍

1.知识点碎片化（面对不同的网站，每个网站都有每个网站的特点，根据不同网站采取不同的技术和手段）
2.学习难度在于要与网站的运维人员和维护人员进行搏斗，网站的网爬是不断升级。
3.学习特点：爬虫的阶段课程是以某网站爬虫的案例进行讲解，一个技术点就是一个案例。
4.后续发展：爬虫需要掌握的东西更要多，可能根据工作需要涉及更多从来没有学过的知识。（难度会持续增高）
5.法律层面，爬虫工作属于灰色地带，目前法律对于爬虫的相关评判还没有一个明确的制度。
6.好记性不如烂笔头，多找一些网站进行爬虫练习。

2.爬虫的概述

模拟浏览器，发送请求，获取响应
网络爬虫（网页蜘蛛）就是模拟客户端（主要是浏览器）发送网络请求，接受请求响应，一种按照一定规则，自动地抓取互联网信息的程序。
原则上，只要是客户端（浏览器）能做的事情，爬虫都能做。
爬虫也只能获取客户端（浏览器）所展示出来的内容
案例1
进入一个网页网站---->右击选定“检查”----->打开开发者工具的·natework---->刷新（进行重新抓包）

3.爬虫的作用

1.数据采集（机器学习舆情监控，数据分析·挖掘）
2.软件测试(虫师)
3.12306抢票
4.网络上的投票
5.网络安全（短息轰炸，web漏洞扫描）

4.爬虫的分类

5.爬虫的流程

流程图的原理

6.http与https的概念和区别

7.爬虫特别关心的请求头和响应头

请求头的格式

爬虫常见的请求头与响应头

8. 常见的响应状态码

所有的状态码都不可信，一切以是否从抓包得到的响应中获取到的数据为准
network中抓包得到的源码才是判断依据，elements中的源码是渲染之后的源码，不能作为判断标准

9.浏览器运行过程与爬虫过程的区别

数据可能在下面三种文件中,在下面三种进行查找：
骨骼文件： html静态文件
肌肉文件： js /ajax请求
皮肤文件： css/font/图片等
抓包过程
根据发送请求的流程分别在骨骼/肌肉/皮肤响应请求中查找数据

浏览器客户端 css web 网络爬虫 html 软件测试互联网数据分析 jax 机器学习数据采集流程图网络安全开发者开发者工具漏洞扫描