数据采集与预处理

1.采用哪些方式可以获取大数据？

2.常用大数据采集工具有哪些？

3.简述什么是Apache Kafka数据采集。

4.Topic可以有多少个分区，这些分区有什么用？

5.Kafka抽象具有哪种模式的特征消费组？

6.简述数据预处理的原理。

7.数据清洗有哪些方法？

8.数据集成需要重点考虑的问题有哪些？

9.数据变换主要涉及哪些内容？

10.分别简述常用ETL工具。

1.采用哪些方式可以获取大数据？

　　（1）通过业务系统或者互联网端的服务器自动汇聚（系统日志采集，网络数据采集(通过网络爬虫实现）)，如业务数据、用户行为数据等。

　　（2）通过卫星、摄像机和传感器等硬件设备自动汇聚，如遥感数据、交通数据等。

　　（3）通过整理汇聚，如商业景气数据、人口普查数据等。

2.常用大数据采集工具有哪些？

　　（1）Apache Chukwa，一个针对大型分布式系统的数据采集系统，其构建在Hadoop之上，使用HDFS作为存储。

　　（2）Flume，一个功能完备的分布式日志采集、聚合和传输系统。在Flume中，外部输入称为Source（源），系统输出称为Sink（接收端），Channel（通道）将源和接收端链接在一起。

　　（3）Scrible，facebook开源的日志收集系统。

　　（4）Kafka，当下流行的分布式发布、订阅消息系统，也可用于日志聚合。不仅具有高可拓展性和容错性，而且具有很高的吞吐量。特点是快速的、可拓展的、分布式的、分区的和可复制的。

3.简述什么是Apache Kafka数据采集。

　　Apache Kafka 是当下流行的分布式发布、订阅消息系统，被设计成能够高效地处理大量实时数据，其特点是快速的、可拓展的、分布式的、分区的和可复制的。Kafka是用Scala语言编写的，虽然置身于Java阵营，但其并不遵循JMS规范。

4.Topic可以有多少个分区，这些分区有什么用？

　　一个Topic可以有多个分区，这些分区可以作为并行处理的单元，从而使Kafka有能力高效地处理大量数据。

5.Kafka抽象具有哪种模式的特征消费组？

　　Kafka提供一种单独的消费者抽象，此抽象具有两种模式的特征消费组：Queuing和Publish-Subscribe。

6.简述数据预处理的原理。

　　数据预处理（Data Preprocessing）是指在对数据进行挖掘以前，需要对原始数据进行清理、集合和变换等一系列处理工作，以达到挖掘算法进行知识获取研究所要求的最低规范和标准。通过数据预处理工作，可以使残缺的数据完整，并将错误的数据纠正、多余的数据去除，进而将所需的数据进行数据集成。数据预处理的常见方法有数据清洗、数据集成和数据变换。

7.数据清洗有哪些方法？

　　（1）填充缺失值。常用处理方法：忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、用属性的均值填充缺失值、用同类样本的属性均值填充缺失值、使用最可能的值填充缺失值。

　　（2）光滑噪声数据。方法：分箱、回归、聚类。

　　（3）数据清洗过程，包括检测偏差和纠正偏差。

8.数据集成需要重点考虑的问题有哪些？

　　（1）模式集成和对象匹配问题。

　　（2）冗余问题。

　　（3）元组重复。

　　（4）数据值冲突的检测与处理问题。

9.数据变换主要涉及哪些内容？

　　（1）光滑。去除数据中的噪声。

　　（2）聚集。对数据进行汇总或聚集。

　　（3）数据泛化。使用概念分层，用高层概念代替底层或“原始”数据。

　　（4）规范化。将属性数据按比例缩放，使之落入一个小的特定区间。

　　（5）属性构造。可以构造新的属性并添加到属性集中，以帮助挖掘过程。

10.分别简述常用ETL工具。

　ETL是用来描述将数据从源端经过提取、转换、装入到目的端的过程。

　　常用工具有：　

　　（1）PowerCenter。Informatica的PowerCenter是一个可拓展、高性能企业数据集成平台，应用于各种数据集成流程，通过该平台可实现自动化、重复使用及灵活性。

　　（2）IBM Datastage。IBM InfoSphere Datastage是一款功能强大的ETL工具，是IBM数据集成平台IBM Information Server的一部分，是专门的数据提取、数据转换、数据发布工具。

　　（3）Kettle。Kattle是Pentaho的ETL工具，Pentaho是一套开源的解决方案。Kattle是一款国外优秀的开源ETL工具，由纯Java编写，可以在Windows、Linux、UNIX上运行，无需安装，数据抽取高效稳定。