经验:
1、利用chrome的network,通过翻页操作,快速定位到获取数据的url
2、利用Postman,可以快速生成爬虫的代码
注意点:
1、导出csv时候,中文乱码
2、抓取时间时候,格式转化
代码:
1、API类
如果网站是通过API直接获取的json数据的话,那么不用分析页面dom,比较简单
result1 = []
url = "https://ecp.sgcc.com.cn/ecp2.0/ecpwcmcore//index/noteList"
headers = {'Content-Type': "application/json", 'cache-control': "no-cache"}
for page in range(1, 11):
payload = "{\"firstPageMenuId\": \"2018032700291334\", \"index\": " + str(page) + ", \"key\": \"\", \"orgId\": \"\", \"purOrgCode\": \"\", \"purOrgStatus\": \"\", \"purType\": \"\", \"size\": 20}"
response = requests.request("POST"