2.2大数据采集技术

大数据采集处于大数据生命周期的第一个环节，对于大数据分析和应用起着至关重要的作用

大数据采集是指从传感器和智能设备，以及企业系统、社交网络和互联网平台等渠道获取数据的过程。

这些数据来源广泛、种类繁多、数据量巨大且产生速度快、传统数据采用方法难以胜任，因此产生了新的数据采集方式----基于大数据的采集技术。除解决上述传统数据采集方法难以解决的问题以外，大数据采集技术还要保证数据采集的可靠性、高效性，而且要避免重复数据。

根据数据源的不同，发数据采集通常可以分为以下3类

1.系统日志采集

系统日志采集主要是收集企业业务平台日常产生的大量日志数据，以供后续离线和在线大数据分析系统使用。高可用性、高可靠性和可扩展性是日志收集系统所具有的基本特征

目前，常用的开源日志采集系统有Flume、Scribe和Kafka等。

其中，Flume是Cloudera提供的一个高可用、高可靠、分布式的日志采集、聚合和传输系统。Scribe是Facebook开源的日志收集系统，为日志的分布式收集和统一处理提供可扩展、高容错的解决方案

Kafka是Apache开源的一种高吞吐量的分布式发布订阅消息系统，使用于大流量的日志采集

2.网络技术采集

网络爬虫

3.其他数据采集