爬虫知识超详细讲解(零基础入门，老年人都看的懂)

1.爬虫是什么？

网络爬虫是一种按照一定的规则、自动的抓取万维网信息的脚本或者程序

简单来说：爬虫是用事先写好的程序去抓取网络上的数据，这样的程序叫爬虫

2.爬虫的分类

按照使用场景来分，可以分为两类：通用爬虫和聚焦爬虫

通用爬虫：搜索引擎爬虫（百度）

聚焦爬虫：获取想要的数据

3.爬虫就是在模仿人类的操作

4.爬虫的知识体系和相关工具（必须掌握）

 1.概念
        利用HTTP协议，从网站采集、提取数据的过程
    2.知识结构及路线图
        1）web前端
            （1）HTML
            （2）CSS  层级样式表
            （3）JS
        2）HTTP超文本传输协议
        3）Python语言
        4）HTTP编程
            （1）Python标准库：urllib
            （2）第三方库：requests（需要安装、下载）
        5）数据采集
            （1）文本类型
            （2）图片
            （3）媒体文件（e.g. ：音乐、视频）
        6）数据提取
            （1）XPath
            （2）正则表达式
            （3）Beautiful Soup
        7）数据存储
            （1）文本文档
            （2）MySQL数据库
            （3）Excel
            （4）MongoBD数据库
            （5）Redis数据库
        8）反爬虫技术应用
            （1）图片验证码
            （2）滑块验证码
            （3）IP代理池
            （4）封装请求头
            （5）动态内容处理
                1>Ajax
                2>Selenium
            （6）JS加密
            （7）Cookie加密
            （8）CSS加密
            （9）Base64加密
        9）爬虫框架
            （1）Scrapy框架
                1>scrapy-redis分布式爬虫
            （2）pyspider框架
    3.工具
        1）环境
            （1）windows
            （2）Linux系统
        2）开发
            （1）Python
                1>pycharm
            （2）数据库
                1>MySQL
                2>MongolianDB
                3>Redis
            （3）浏览器
                1>谷歌浏览器
                2>火狐浏览器

5.HTTP请求

客户端--发送请求（request）-->服务器
客户端<--返回响应（response）--服务器

请求方式：get请求/post请求

get请求：会将请求的参数放到地址栏（URL）/网址后面，不安全

post请求：不会将请求的参数放到网址后面，相对安全