4-八爪鱼boss直聘信息采集

4-1-综合实践背景

小张是某高校管理学研究生，在毕业课题中需要采集boss直聘武汉地区的相关数据，而小张同学因为是人文科学背景没有接触过爬虫，在网上搜索很多资料后，现在她找到你希望你帮她采集boss直聘网的相关数据，你应该怎么做呢？

boss直聘武汉地区网站：https://www.zhipin.com/wuhan/

打开八爪鱼到打开boss直聘武汉的相关页面

在职务关键词中输入【数据分析】关键词进行搜索

针对Boss直聘对ip进行验证的情况，可以对打开网页这一步骤中的重试部分进行设置，从而在一定程度上对反爬虫的绕过

首先是对页面进行自动网页识别

这是自动识别完成后的界面，我们可以看到系统抓取的数据比较全面

如果需要获得更加详细的职位页面数据，相关数据采集完成后可以进入到单独的职位页面进行数据采集

采集完成后将采集的职位的链接导入到八爪鱼后，对后续的职位信息进行相关采集。循环打开采集的网页，对职位的岗位需求进行采集。

思考部分

1.在数据采集过程中，频繁访问网页会引发反爬虫机制，如何规避这样的问题？

切换IP地址；设置采集间隔时间；

2.对于boss直聘的数据采集中，你觉得哪些信息字段是比较重要的？

企业信息；薪资；工作地点；岗位要求

team-learning-program/CollectData at master · datawhalechina/team-learning-program (github.com)