从0到1，聊聊货拉拉如何搭建数据指标体系

指标体系是指一系列维度、有组织及结构的指标集合。构建指标体系主要是为公司业务目标落地做辅助决策，以及监控业务运行的稳定性情况等。

具体从业务、技术及产品三个视角来阐述指标体系构建中的痛点：

针对上述痛点，我们从以下三个方面去解决：

对于建设范围：先聚焦核心业务，快速将核心业务的指标体系搭建出来并落地应用，然后再迭代优化。切忌刻意地追求指标的业务覆盖面，避免导致需求范围过大，实现周期太长，导致指标的应用落地严重延期。整个核心构建过程如上图中所示，目标是围绕赋能业务去设计指标。

下面以货拉拉为例，简单介绍指标体系搭建的思路（例子与实际业务不一定相符，仅供参考）：

上图中列出了指标及维度拆解中的一些经典原则及常用数据模型。这里强调两点：

遵循 MECE原则，尤其是在底层数据模型的设计过程中，最好将维度和指标拆解地互斥且不交叉，这样有利于保证上层应用层维度及指标组合的灵活性、同时也有利于提升复用率、降低整体的计算及研发成本；具体的拆分方法参考如上图所示，二（多）分法、流程法等。
需要深入理解各核心业务场景的常用数据分析模型（比如上图中 AARRR 等模型），结合自己公司的业务特点，选取合适的业务数据模型来搭建部门内部的指标体系。

指标体系建设的标准化流程可以参考以上流程图，重点强调的内容有以下两点：

数据需求准入评审：为了解决业务口径描述不一致、业务口径转换为数据口径的质量问题，一定要成立一个指标评审组织，至少由业务方、数据分析人员、数仓研发人员这三部分组成，此项工作人力投入价值最大，直接影响后续数据研发的效率、交付质量及是否返工修复数据口径等工作量。
数据研发的标准化：为了数据模型设计工作的高质量开展，需要梳理好数据口径；核心工作内容是数据的维度及指标梳理，落地为指标维度矩阵，再进一步拆解到事实层(DWD)的维度及原子指标，这样可以更准确地评估后续数据研发的工作量。

指标体系建设过程中数据研发的工作重点：依据数仓的架构主要集中在汇总层各业务主题域的指标维度事实表的建设落地，其次是集市层，面向业务的多账期、跨业务主题域、衍生指标的建设工作等。

指标建设完成后，则需要进行指标元数据管理，主要有四部分内容：

对于指标元数据管理方面，介绍以下三个相关定义：

因此对应的具体管理内容主要是如上图所示的三部分元数据的管理，修饰词管理、指标管理和维度管理。

对于指标体系的主要应用场景包括：业务报表和看板、特定的业务数据产品等，另外实际已落地的新场景是：结合 AI 大模型通过自然语言快速取数，具体框架如上图所示。

具体应用场景功能设计上，对于衍生指标，即基础指标的四则运算、派生及衍生维度，关联父子维度，或者简单关联转化的维度，我们都是通过元数据配置来实现的，这样极大提高了数据应用的灵活性，并大大降低了数据及后端数据接口服务研发的成本，同时提高了需求响应的及时性。

对于指标体系应用在未来的热门发展方向主要体现在通过自然语言快速取数、归因诊断及智能运营这三个方面：

自然语言快速取数及简单可视化，在货拉拉已经接近落地，相关云厂商或者头部互联网公司也基本都有相关产品。这个场景的主要挑战是如何降低错误率，个人理解在这个场景中可以拒答，但是不能给出错误数据。
诊断归因，则处于探索逐步落地阶段，前期主要先基于业务部门的分析经验来配置归因的逻辑来实现，后续再探索如何让大模型通过对行业业务的理解学习，结合数理统计分析算法来自主归因。
智能运营场景，为了提高运营效率，进一步对 AI 大模型提出了更高的定制化能力要求。传统运营早已深入各行业公司的具体业务，主要是基于个人经验和历史沉淀的经验知识等，因此需要更深入理解行业及公司业务的运营知识。同时由于涉及到具体的运营策略及业务数据，对于这部分的数据安全性也是一个挑战。为了这个场景能更好地落地及推广，还要求相关产品能具备通用化且安全的行业知识学习及更新能力，并最好将大模型行业知识的学习流程产品化，降低大家的学习使用成本，在保证运营效果的同时，大大减少公司的运营人力投入成本。