随着企业数据规模的增长和业务多元化发展,海量数据实时、多维地灵活查询变成业务常见诉求。同时多套数据库系统成为常态,这既带来了数据管理的复杂性,又加大了数据使用的难度,面对日益复杂的数据环境和严格的数据安全要求,需要解决多数据库系统并存、数据孤岛严重、权限管理混乱和数据查询提取困难等问题。与此同时,企业对数据安全管控的要求越来越高,不同角色和部门需要访问的数据各异,如何精细控制数据库权限、防止数据泄露和误操作成为关键挑战。
建设背景
相较于日常查询,在系统实施时通过建立索引、分区等技术来优化、提高查询效率。Ad-Hoc查询生成的方式很多,常见方式是将数仓中的DIM表和Fact表映射到语义层,分析师借助语义层选择表建立表间的关联最终生成SQL语句,Ad-Hoc能力是分析师在使用时临时生产的,系统无法预先优化这些查询,即席查询的位置在EDW中。在一个数据仓库系统中,Ad-Hoc查询使用的越多,对数仓的要求就越高。
以银行、消费金融公司为例,存在业务查询与统一Ad-Hoc需求,下设部门涵盖产品研发、运营推广、贷后管理、法务合规等多个业务领域。由此多类型数据库实例共存下,在用户体系整合、数据权限管理、操作安全审计、SQL查询语法等方面变得十分繁杂,急需一款能够进行多数据库接入、统一数据出口的平台。
案例场景
随着业务量的增长,为提升业务处理效率和风险管理水平,业务主要分为三个部门:风险管理部门、科技部门、金融市场部门,其中风险管理人员能够熟练的使用SQL,但需要针对不同的业务改变SQL语法,经常会出现语法不兼容的问题。金融市场人员较少使用SQL,需要以可视化拖拉拽的方式去拉取明细数据。科技部开发人员在操作数据库时经常会出现误删除、修改核心数据,写一些危险SQL对业务库造成压力,需要给使用人员设置DDL权限以及代码检查来保证数据安全。
部门管理员统一在平台内配置用户的账号信息以及数据源的JDBC链接信息,根据业务需要配置数据权限和代码校验规则,完成基础配置后风险管理人员即可在平台内屏蔽掉下游的计算引擎用一种通用SQL语法取数,金融市场人员需要先根据业务配置常用的数据模型,后续进行可视化取数,excel数据整理。而开发人员只能够在所配的权限下对数据库执行DML语句,如果有超出权限的SQL需要发起审批,审批通过后才可以执行。
痛点分析
1、账号存在安全风险
数据库账号往往由多名操作人员共享,运维人员的权限有可能超出工作实际使用所需要的,很容易出现操作越权等行为,给数据安全造成威胁。
2、不同数据库存在语法差异
不同类型的数据库都有其独特的SQL语法和规则,开发人员在编写SQL查询语句时,需要针对不同数据库进行适配,增加了开发的工作量,并可能导致潜在的错误和性能问题。
3、业务多维查询遇到问题
业务查询常见钻取、上卷、切片、切块、行列变换,在业务查询过程中,零售场景查询单个PV或者查询业务流水,数据读取动则上百个G;查询内存OOM,一直不够用;夜间调度与数据同步,产品经理和分析师上班时间杀任务脚本。
4、审计线索不足,追溯困难
传统工具无法记录用户及其行为数据,如果有数据操作异常的行为无法进行溯源和定责,可能导致数据的二次侵害,给平台长期健康稳定运行带来挑战。
5、业务人员SQL使用频率低
许多报表和分析人员对SQL语句不熟悉,新增报表或者固定报表字段变更时需要进行数据探查,过去提取操作都需要依赖IT人员编写SQL查询,导致数据查询周期长,业务决策支持的效率较低。
6、业务数据分散多个系统中
在复杂的融合分析场景下,数据分析难以将存储在本地Excel文件中的数据导入系统与业务库数据进行关联,不能及时灵活的对业务数据进行分析。
建设方案
1、统一查询引擎
支持适配多种数据库语法,自动转换查询语句,提供包括语法高亮、关键词提示、格式化等功能的IDE编辑界面,让用户无需关心底层数据库的语法差异,一站式完成数据连接、数据处理、数据分析等全流程功能。
2、统一身份认证管理
在使用平台前需管理员先维护好用户个人的账号信息以及相应权限,登录统一查询平台后才能访问数据库,无法接触到数据库真实账号密码。
3、AI辅助数据查询
可根据自然语言表达的数据查询结果转译对应的SQL命令,包括SQL的生成、改写、纠错等,帮助查询人员轻松完成复杂数据提取分析工作。
4、降低数据分析门槛
业务人员可以通过拖拽式操作进行数据提取、模型配置、过滤器配置、可视化报表配置等功能,直观地选择数据源、定义查询条件和组合数据,无需深入了解底层数据库结构和SQL语法,提升数据决策支持能力。
5、数据库安全权限管控
配置数据脱敏、行级权限等安全措施,根据不同角色和职责设定权限,保证业务库中数据的隐私和安全,并对权限变动、危险SQL等用户行为实时审计,以确保数据的合规使用。
建设收益
在某消费金融公司的项目落地中,使不同部门的人员能够迅速获取所需信息,显著提升了业务处理效率,满足了客户资料查询、交易记录检索、风险信息评估等多种场景的数据分析。同时确保了金融信息的安全性和保密性,为后续平台的稳健运行提供有力保障。
1、数据需求周期大幅缩短
传统的数据需求流程需要经过多个部门审批、协调,由IT人员排期手动提取。统一查询平台借助SQL/自助取数,允许数据分析、业务人员在统一的平台上按需自助提取,大大减少了沟通、开发、测试成本,使得数据获取周期从原来的3-5天缩短到分钟级出数。
2、数据驱动决策门槛显著降低
借助自助取数及SQL收藏等功能,使得一线业务及运营管理人员也能便捷访问多源异构数据资产,推动全员数据驱动决策,自平台上线以来,业务侧数据分析参与度显著提高,登录人次、停留时长、SQL收藏量、查询任务数、数据导出次数等指标均远超项目规划预期。
3、数据风险操作统一溯源
借助平台的审计日志功能,全面覆盖各类对接数据库的数据操作行为,实现操作行为完整记录率的100%触达,不仅增强了数据安全管理及合规性,还将数据风险操作的定位与排查时间从数小时大幅缩短至数分钟内,审计响应效率提升达80%以上。
4、数据访问权限可视可管
统一查询平台运用行/列级权限控制及数据脱敏技术,实现数据访问权限的可视化与精细化管理,提高了数据安全管控能力。数据表权限配置有效覆盖率提升至95%以上,有效阻止非法数据访问;实现对客户信息、渠道数据等的自动识别与脱敏处理,有力保障了企业在数据共享与应用中的安全性与合规性。
《行业指标体系白皮书》下载地址:https://www.dtstack.com/resources/1057?src=szsm
《数栈产品白皮书》下载地址:https://www.dtstack.com/resources/1004?src=szsm
《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm
想了解或咨询更多有关大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szkyzg