数据采集流程,就是数据采集开始时,首先是抽取数据,将数据从网页或业务处理系统中抽取数据,再经过数据清洗进行数据标准化、统一化的处理,以及数据迁移,最后存储数据。采集的数据类型可以是图片、音频、视频等文件以及附件,附件可以与正文自动关联,直到结束。数据采集流程,如图1-4所示。
采集:多领域范围
清洗:验证、拆分、过滤
存储:灵活、合理
1. 网络数据的采集流程
网络数据采集过程,一般都需要经过采集、清洗、存储三个步骤。
(1)采集数据
首先是本地服务器对起始的URL发送请求;其次是获取其返回的响应;第三是提取数据。提取数据,实质上就是解析网页。解析网页需要完成两个步骤,第一步骤就是提取网页上的链接;第二步骤就是提取网页上的资源。
(2)清洗数据
清洗数据是在采集数据后进行的一个操作,通过数据清洗,使得数据格式达到统一标准,即对数据的脏数据进行纠正、修改、去重等处理,目的是为了减少数据分析中存在的诸多问题,提高数据分析的准确性和效率。
(3)存储数据
网络数据采集后,要存储数据。也就是说获取的数据在经过数据清洗处理后,将数据存储起来,以便对数据进行进一步的分析、处理以及可视化等。
2. 日志数据的采集流程
在日志数据类型的数据采集过程中,ETL发挥了很重要的作用。
ETL是将业务系统的数据经过抽取(Extract)、清洗转换(Transform)之后加载(Load)到数据仓库的过程,目的就是将企业中零乱、分散、标准不统一的数据进行整合,从而达到更好的分析效果,为企业决策提供分析依据。
日志数据采集的流程,同前面一样分为采集、清洗、存储三个步骤。
(1)采集数据
通过数据采集工具配置部署,完成采集。
(2)清洗数据
通过开源工具,配置来接收原始的日志数据并进行拆分、验证。
(3)存储数据
通过开源工具,将采集结果存入数据库或文件中。