目录
1.采用哪些方式可以获取大数据?
2.常用大数据采集工具有哪些?
3.简述什么是Apache Kafka数据采集。
4.Topic可以有多少个分区,这些分区有什么用?
5.Kafka抽象具有哪种模式的特征消费组?
6.简述数据预处理的原理。
7.数据清洗有哪些方法?
8.数据集成需要重点考虑的问题有哪些?
9.数据变换主要涉及哪些内容?
10.分别简述常用ETL工具。
1.采用哪些方式可以获取大数据?
(1)通过业务系统或者互联网端的服务器自动汇聚(系统日志采集,网络数据采集(通过网络爬虫实现)),如业务数据、用户行为数据等。
(2)通过卫星、摄像机和传感器等硬件设备自动汇聚,如遥感数据、交通数据等。
(3)通过整理汇聚,如商业景气数据、人口普查数据等。
2.常用大数据采集工具有哪些?
(1)Apache Chukwa,一个针对大型分布式系统的数据采集系统,其构建在Hadoop之上,使用HDFS作为存储。
(2)Flume,一个功能完备的分布式日志采集、聚合和传输系统。在Flume中,外部输入称为Source(源),系统输出称为Sink(接收端),Channel(通道)将源和接收端链接在一起。
(3)Scrible,facebook开源的日志收集系统。
(4)Kafka,当下流行的分布式发布、订阅消息系统,也可用于日志聚合。不仅具有高可拓展性和容错性,而且具有很高的吞吐量。特点是快速的、可拓展的、分布式的、分区的和可复制的。
3.简述什么是Apache Kafka数据采集。
Apache Kafka 是当下流行的分布式发布、订阅消息系统,被设计成能够高效地处理大量实时数据,其特点是快速的、可拓展的、分布式的、分区的和可复制的。Kafka是用Scala语言编写的,虽然置身于Java阵营,但其并不遵循JMS规范。
4.Topic可以有多少个分区,这些分区有什么用?
一个Topic可以有多个分区,这些分区可以作为并行处理的单元,从而使Kafka有能力高效地处理大量数据。
5.Kafka抽象具有哪种模式的特征消费组?
Kafka提供一种单独的消费者抽象,此抽象具有两种模式的特征消费组:Queuing和Publish-Subscribe。
6.简述数据预处理的原理。
数据预处理(Data Preprocessing)是指在对数据进行挖掘以前,需要对原始数据进行清理、集合和变换等一系列处理工作,以达到挖掘算法进行知识获取研究所要求的最低规范和标准。通过数据预处理工作,可以使残缺的数据完整,并将错误的数据纠正、多余的数据去除,进而将所需的数据进行数据集成。数据预处理的常见方法有数据清洗、数据集成和数据变换。
7.数据清洗有哪些方法?
(1)填充缺失值。常用处理方法:忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、用属性的均值填充缺失值、用同类样本的属性均值填充缺失值、使用最可能的值填充缺失值。
(2)光滑噪声数据。方法:分箱、回归、聚类。
(3)数据清洗过程,包括检测偏差和纠正偏差。
8.数据集成需要重点考虑的问题有哪些?
(1)模式集成和对象匹配问题。
(2)冗余问题。
(3)元组重复。
(4)数据值冲突的检测与处理问题。
9.数据变换主要涉及哪些内容?
(1)光滑。去除数据中的噪声。
(2)聚集。对数据进行汇总或聚集。
(3)数据泛化。使用概念分层,用高层概念代替底层或“原始”数据。
(4)规范化。将属性数据按比例缩放,使之落入一个小的特定区间。
(5)属性构造。可以构造新的属性并添加到属性集中,以帮助挖掘过程。
10.分别简述常用ETL工具。
ETL是用来描述将数据从源端经过提取、转换、装入到目的端的过程。
常用工具有:
(1)PowerCenter。Informatica的PowerCenter是一个可拓展、高性能企业数据集成平台,应用于各种数据集成流程,通过该平台可实现自动化、重复使用及灵活性。
(2)IBM Datastage。IBM InfoSphere Datastage是一款功能强大的ETL工具,是IBM数据集成平台IBM Information Server的一部分,是专门的数据提取、数据转换、数据发布工具。
(3)Kettle。Kattle是Pentaho的ETL工具,Pentaho是一套开源的解决方案。Kattle是一款国外优秀的开源ETL工具,由纯Java编写,可以在Windows、Linux、UNIX上运行,无需安装,数据抽取高效稳定。