大数据采集处于大数据生命周期的第一个环节,对于大数据分析和应用起着至关重要的作用
大数据采集是指从传感器和智能设备,以及企业系统、社交网络和互联网平台等渠道获取数据的过程。
这些数据来源广泛、种类繁多、数据量巨大且产生速度快、传统数据采用方法难以胜任,因此产生了新的数据采集方式----基于大数据的采集技术。除解决上述传统数据采集方法难以解决的问题以外,大数据采集技术还要保证数据采集的可靠性、高效性,而且要避免重复数据。
根据数据源的不同,发数据采集通常可以分为以下3类
1.系统日志采集
系统日志采集主要是收集企业业务平台日常产生的大量日志数据,以供后续离线和在线大数据分析系统使用。高可用性、高可靠性和可扩展性是日志收集系统所具有的基本特征
目前,常用的开源日志采集系统有Flume、Scribe和Kafka等。
其中,Flume是Cloudera提供的一个高可用、高可靠、分布式的日志采集、聚合和传输系统。Scribe是Facebook开源的日志收集系统,为日志的分布式收集和统一处理提供可扩展、高容错的解决方案
Kafka是Apache开源的一种高吞吐量的分布式发布订阅消息系统,使用于大流量的日志采集
2.网络技术采集
网络爬虫
3.其他数据采集