原标题:Python网络爬虫之模拟登陆
为什么要模拟登陆?
Python网络爬虫应用十分广泛,但是有些网页需要用户登陆后才能获取到信息,所以我们的爬虫需要模拟用户的登陆行为,在登陆以后保存登陆信息,以便浏览该页面下的其他页面。
保存用户信息
模拟登陆后有两种方法可以保存用户信息,通过Session来保存登陆信息或者通过Cookie来保存登陆信息
一、Session的用法
# 导入requests模块
import requests
# 通过requests的Session来请求网页
s = requests.Session
r = s.post(url, headers=headers)
二、Cookie的用法
import urllib.request, http.cookiejar
# 初始化Cookie
cookie = http.cookiejar.CookieJar
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cookie))
# 把opener配置为全局 当然也可以不配置全局通过opener来请求网页
urllib.request.install_opener(opener)
模拟登陆实践
我们以豆瓣网为例模拟用户登陆,然后爬取登陆后的用户界面
&#x