根据北京研精毕智信息咨询发布的调查报告,2018-2021年,全球数据存储量由30ZB上升至55ZB左右,年平均增长率约为27.8%。到2022年,数据总存储量进一步增加至65ZB以上,较2021年同期新增了约10ZB,同比增长18.2%。各市场主体对数据的重视程度不断提升,数据应用逐步由批量处理向规模化存储的方向发展。
随着各行各业数字化转型的深入,数据体量爆炸式增长。如何控制数据生产成本、发现有价值的数据,提高数据ROI,成了企业数字化转型中后期的关键任务。
本文将为大家解析如何通过企业数据多维度治理,实现数据资产的最大化利用和价值发挥。
为什么要做数据治理?
“降本增效”无疑是2023年的关键词,无论是各行业巨头还是中小企业,都在试图通过持续的降本增效保持竞争优势。而数据治理正是其中的关键一环。
控制生产成本
在数仓建设过程中,企业往往更关心数据的产生和交付,对于数据的治理没有引起足够的重视。当存在资源不足、成本攀高的情况时,无法明确优化成本的方向。对于大量的沉默数据存储如何处理,冗余的数据计算资源如何分配,也没有针对性的措施。
数据治理的目的正在于快速识别和解决那些导致企业数据成本增加或数据质量下降的恶性因素,帮助企业降低数据成本,提高数据质量和可靠性,更好地支持业务决策和持续发展。
提高数据价值
数据资产可以帮助用户建立数据标准、规范数据模型、辅助企业进行数据质量校验,但同时也存在管理推动难、下层执行难等问题。如何有效识别价值数据、保留价值数据、推动价值数据落地是企业必须要考虑的一点。
数据治理可以帮助企业全面了解和掌握具有重要价值的数据,推动数据标准的落地实施,确保数据的准确性和一致性,提高数据质量。
如何实现数据治理?
国际数据管理协会在其《DAMA 数据管理知识体系指南》一书中,将数据治理作为数据管理十大知识领域的中心,负责知识领域的平衡和一致性,为各项数据管理活动提供总体指导策略。
如今,数据治理的重要性已不言而喻,然而大部分企业对于数据治理还有着一个普遍的共识,那就是:“数据治理说起来容易,做起来难!”
数据治理究竟应该怎么治?在哪里治?
制定数据治理规则
数据治理规则可从计算、存储、质量、规范、价值五个维度进行配置,通过制定不同维度的治理规则,帮助企业优化存储成本、避免资源浪费、提升数据质量、推动标准规范,实现数据价值。
● 计算维度
以每个项目的任务为基础进行超长任务判断、异常情况判断,定义不同规则对应的建议处理方式,避免资源浪费。
● 存储维度
以每个项目的数据表为基础进行,定义不同规则对应的建议处理方式,优化存储成本。
● 质量维度
以每个项目的任务为基础进行,定义不同规则对应的建议处理方式,提升数据质量。
● 规范维度
以每个项目的数据表为基础进行,定义不同规则对应的建议处理方式,推动标准规范落地。
● 价值维度
以每个项目的数据表为基础进行,定义不同规则对应的建议处理方式,帮助企业了解数据使用情况,提升数据价值。
搭建数据治理工作台
数据治理实践实施过程中,需要依托具体的平台来执行。随着技术的不断发展,这些平台的智能化程度也在不断提高。
袋鼠云数据治理中心支持搭建数据治理工作台,工作台可发起治理任务,并展示待处理的问题,处理方式建议,处理责任人及进展等,实现数据治理问题处理流程闭环,对数据治理过程的全生命周期进行管理。
● 建立个人工作台
个人工作台针对每个用户,展示具体用户的待处理问题列表。每个用户可查看分配给自己的问题处理清单,查看目前待处理问题总数、已处理问题数、已延期问题数、加入白名单问题数等。
进行问题处理后系统会自动对该问题进行复验,验证无误后该问题会变为“已处理”状态;验证有问题需再次进行处理,完成治理问题处理闭环管理。
● 治理任务配置
治理任务管理支持以项目维度进行治理任务管理,可配置治理任务的调度周期、治理通知信息,能够查看每个治理项目的产生问题总数、待处理问题数、待分配问题数。
治理项处理可查看未分配的问题清单,可按照不同维度,不同的问题类别进行处理人的批量指派,指派问题时可设置该问题的处理时效(例如需要在3天内处理完成,若未完成记录为延期处理问题数量),通知方式等。
● 治理成果全景概览
数据治理成果总览支持以全景视图、项目视图、个人视图等多个视图维度汇总展示治理概况,展示内容包含项目数量、任务数量、数据表数、待治理项数、资产健康分、分值变化趋势、治理项变化趋势等内容,便于企业全方位了解治理概况。
数据治理的价值
通过实施数据治理,企业可以对其数据收集、整合、清洗和处理等过程进行有效的管理和控制,以确保持续生成高质量的数据。这些经过治理的数据为企业提供了更明智的决策依据,所有这些举措都将进一步推动企业的业务发展和创新管理。
袋鼠云数据治理中心可持续监控平台使用过程中数据存储、任务计算、代码开发、数据质量、数据规范、数据价值等维度存在的问题,并通过资产健康分的量化评估,从全局、项目、个人多个视图角度呈现治理成果。
推动企业完善数据规范、优化数据质量、节约资源、降本增效,帮助企业高效达成治理目标,让数据资产发挥价值。
我们将过往经验汇集成册,编写了一本《数据治理行业实践白皮书》,140页深度干货,囊括15个典型成功案例,全书从方法论到实践全面解码数据治理,开辟数据治理新范式。丰富内容可免费下载,对数据治理感兴趣的同学一定要看!
《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm
《数栈产品白皮书》:https://www.dtstack.com/resources/1004?src=szsm
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szkyzg
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术qun」,交流最新开源技术信息,qun号码:30537511,项目地址:https://github.com/DTStack