【爬虫】爬虫中登录与验证码处理

本系列为自己学习爬虫的相关笔记，如有误，欢迎大家指正

处理登录表单

随着Web 2.0的发展，大量数据都由用户产生，这里需要用到页面交互，如在论坛提交一个帖子或发送一条微博。因此，处理表单和登录成为进行网络爬虫不可或缺的一部分。获取网页和提交表单相比，获取网页是从网页抓取数据，而提交表单是向网页上传数据。

在客户端（浏览器）向服务器提交HTTP请求的时候，两种常用到的方法是GET和POST。使用GET方法的时候，查询字符串（名称/值对）是在GET请求的URL中发送的，因为浏览器对URL有长度限制，所以GET请求提交的数据会有所限制。这里数据都清清楚楚地出现在URL中，所以GET请求不应在处理敏感数据时使用，如密码。

按照规定，GET请求只应用于获取数据，POST请求则用于提交数据。因为查询字符串（名称/值对）在POST请求的HTTP消息主体中，所以敏感数据不会出现在URL中，参数也不会被保存在浏览器历史或Web服务器日志中。表单数据的提交基本上要用到POST请求。

处理登录表单

处理登录表单可以分为两步：

（1）研究网站登录表单，构建POST请求的参数字典。（2）提交POST请求。

import  requests
session = requests.session() #创建一个session对象 session对象会存储特定用户会话所需的属性和配置信息，这对我们后面在其中保存和操作cookies非常有意义。
post_url = 'http://xxx.xx.com'
agent = ''
headers = {
   
    'Host':'xxx.xx.com',
    'Origin':'http://xxx.xx.com',
    'Referer':'http://www.xxx.xx.com/test-login',
    'User-Agent':agent
}
#这个要根据自己的需求来变更
postdata = {
   
    'pwd' :'123456'

url 浏览器服务器 web 敏感数据 code 网页抓取网络爬虫客户端 web服务器