目录
4-1-综合实践背景 4-2-综合实践操作 1-打开网页 2-按关键词进行搜索 3-报错“当前IP地址可能存在异常访问” 4-数据采集 4-3-思考 参考文献4-1-综合实践背景
小张是某高校管理学研究生,在毕业课题中需要采集boss直聘武汉地区的相关数据,而小张同学因为是人文科学背景没有接触过爬虫,在网上搜索很多资料后,现在她找到你希望你帮她采集boss直聘网的相关数据,你应该怎么做呢?
boss直聘武汉地区网站:https://www.zhipin.com/wuhan/
4-2-综合实践操作
1-打开网页
打开八爪鱼到打开boss直聘武汉的相关页面
2-按关键词进行搜索
在职务关键词中输入【数据分析】关键词进行搜索
3-报错“当前IP地址可能存在异常访问”
针对Boss直聘对ip进行验证的情况,可以对打开网页这一步骤中的重试部分进行设置,从而在一定程度上对反爬虫的绕过
4-数据采集
首先是对页面进行自动网页识别
这是自动识别完成后的界面,我们可以看到系统抓取的数据比较全面
如果需要获得更加详细的职位页面数据,相关数据采集完成后可以进入到单独的职位页面进行数据采集
采集完成后将采集的职位的链接导入到八爪鱼后,对后续的职位信息进行相关采集。循环打开采集的网页,对职位的岗位需求进行采集。
4-3-思考
思考部分
1.在数据采集过程中,频繁访问网页会引发反爬虫机制,如何规避这样的问题?
切换IP地址;设置采集间隔时间;
2.对于boss直聘的数据采集中,你觉得哪些信息字段是比较重要的?
企业信息;薪资;工作地点;岗位要求
参考文献
team-learning-program/CollectData at master · datawhalechina/team-learning-program (github.com)