python爬虫实验总结_Python爬虫总结

经验：

1、利用chrome的network，通过翻页操作，快速定位到获取数据的url

2、利用Postman，可以快速生成爬虫的代码

注意点：

1、导出csv时候，中文乱码

2、抓取时间时候，格式转化

代码：

1、API类

如果网站是通过API直接获取的json数据的话，那么不用分析页面dom，比较简单

result1 = []

url = "https://ecp.sgcc.com.cn/ecp2.0/ecpwcmcore//index/noteList"

headers = {'Content-Type': "application/json", 'cache-control': "no-cache"}

for page in range(1, 11):

payload = "{\"firstPageMenuId\": \"2018032700291334\", \"index\": " + str(page) + ", \"key\": \"\", \"orgId\": \"\", \"purOrgCode\": \"\", \"purOrgStatus\": \"\", \"purType\": \"\", \"size\": 20}"

response = requests.request("POST"