一、什么是数据仓库
数据仓库是为企业制定决策,提供数据支持的。可以帮助企业改进业务流程,提高产品质量。
数据仓库的输入数据通常包括:业务数据、用户行为数据和爬虫数据等。
二、项目需求分析
1、用户行为数据采集平台搭建
2、业务数据采集平台的搭建
3、数据仓库维度建模
4、分析、设备、会员、商品、地区、活动等电商核心主题,统计的报表指标近100个
5、采用即席查询工具,随时进行指标分析。
6、对集群性能进行监控,发生异常需要报警。
7、元数据管理
8、质量监控
9、权限管理
三、项目框架
技术选型主要考虑的因素:数据量大小、业务需求、行业内经验、技术成熟度、开发维护成本、总成本预算。
数据采集传输:Flume、Kafka、Sqoop、Logstash、DataX
数据存储:Mysql、HDFS、HBase、Redis、MongoDB
数据计算:Hive、Tez、Spark、Flink、Storm
数据查询:Presto、Kylin、Impala、Druid、ClickHouse、Doris
数据可视化:Echarts、SuperSet、QuickBI、DataY
任务调度:Azkaban、Oozie、DolphinScheduler、AirFlow
集群监控:Zabbix、Prometheus
元数据管理:Atlas
权限管理:Ranger、Sentry
服务器选型
集群规模