当前位置:AIGC资讯 > 数据采集 > 正文

数仓项目之用户行为数据采集

一、什么是数据仓库

数据仓库是为企业制定决策,提供数据支持的。可以帮助企业改进业务流程,提高产品质量。

数据仓库的输入数据通常包括:业务数据、用户行为数据和爬虫数据等。

二、项目需求分析

1、用户行为数据采集平台搭建

2、业务数据采集平台的搭建

3、数据仓库维度建模

4、分析、设备、会员、商品、地区、活动等电商核心主题,统计的报表指标近100个

5、采用即席查询工具,随时进行指标分析。

6、对集群性能进行监控,发生异常需要报警。

7、元数据管理

8、质量监控

9、权限管理

三、项目框架

技术选型主要考虑的因素:数据量大小、业务需求、行业内经验、技术成熟度、开发维护成本、总成本预算。

数据采集传输:Flume、Kafka、Sqoop、Logstash、DataX

数据存储:Mysql、HDFS、HBase、Redis、MongoDB

数据计算:Hive、Tez、Spark、Flink、Storm

数据查询:Presto、Kylin、Impala、Druid、ClickHouse、Doris

数据可视化:Echarts、SuperSet、QuickBI、DataY

任务调度:Azkaban、Oozie、DolphinScheduler、AirFlow

集群监控:Zabbix、Prometheus

元数据管理:Atlas

权限管理:Ranger、Sentry

服务器选型

集群规模

更新时间 2023-11-08