在日常生活中常常需要用到各种数据, 下面是一个通过八爪鱼工具采集广州35路公交线的站点数据的案例
下载并打开八爪鱼(官网下载即可)
明确采集对象
复制需要采集对象的网址粘贴至八爪鱼首页的网址输入框中, 点击开始采集
配置采集流程
打开右上角的流程按钮( 这个按钮默认是关闭的 )
输入关键词并搜索
在弹出的输入提示框中( 右边 ) 选择输入文字: 输入关键词, 确定保存, 八爪鱼自动将关键词填入输入框中, 并将这个步骤添加到流程中,
接下来点击搜索按钮(网页上), 在右边的自能提示框中选择[点击该按钮], 八爪鱼执行了这个操作, 添加到流程图中
采集全部需要的数据: 在八爪鱼中需要建立一个循环去完成
选择第一个列表, 在弹出的提示框中选择选中子元素( 这里的子元素就是选中列表中的字段) 再在智能提示框中点击[ 选中全部 ], 继续点击[ 采集数据 ] , 观察流程图, 八爪鱼会自动地生成一个循环的提取数据的流程
下面会出现一个配置抓取数据的模版, 对于不需要的字段和数据, 我们可以点击删除, 还可以修改字段名称
实现翻页
因为上面的这个流程采集的是第一页的数据, 我们还需要对通过以下的操作实现数据的翻页采集:
选中并点击页面中的翻页按钮[ 下一页 ] , 在智能提示框中选中[循环点击下一页 ]
八爪鱼就在流程图中建立一个循环翻页部分
设置向下滚动
在流程图中选中[ 点击元素 ]步骤, 在下面勾选滚动页面, 设置滚动次数, 每次间隔, 滚动方式为向下滚动一屏, 点击确定保存
点击翻页步骤(流程图中),在右边勾选滚动页面, 设置滚动次数, 每次间隔, 滚动方式为向下滚动一屏, 点击确定保存
这样, 一个采集流程就配置好了
7.导出数据
启动采集 点击[ 采集 ]---->[ 启动本地采集 ] ---->数据采集完成后导出数据
爬取结果如下:
由于受各方面因素的影响, 导出来的数据不是很美观, 我们应该对数据进行清洗 , 保留我们需要的数据即可
我需要的数据是站点和坐标的数据 , 结果如下: