面向AI的数据治理体系如何构建？

近年来，随着新技术模型出现、各行业应用场景价值打磨与海量数据积累下的产品效果提升，人工智能应用已从消费、互联网等泛C端领域，向制造、能源、电力等传统行业辐射。各行业企业在设计、采购、生产、管理、营销等经济生产活动主要环节的人工智能技术与应用成熟度在不断提升，加速人工智能在各环节的落地覆盖，逐渐将其与主营业务相结合，以实现产业地位提高或经营效益优化，进一步扩大自身优势。

AI技术创新应用的大规模落地，带动了大数据智能市场的蓬勃发展，同样也为底层的数据治理服务注入了市场活力。

伴随着大数据、云计算以及算法的发展，人工智能的热潮从几年前一直延续至今，并且广泛应用于多个行业和领域，成为当前正在进行的科技革命的一个领军技术。而人工智能在如火如荼的数据治理领域又怎么能缺席呢？数据治理和人工智能，看似不相关的两个词，他们两者放一起，会发生什么故事呢？

一、数据治理为人工智能奠定基础

大数据是不断持续的数据采集、清洗、转换、分类等的数据积累，而数据治理则为大数据的呈现提供了更为规范的管理模式。由于目前大部分人工智能的形式需要通过大量的数据运算实现，因此离不开大数据和数据治理的支持。人工智能需要依赖大数据平台和技术来帮助完成深度学习进化。

1.数据治理为人工智能提供优质数据

大部分的人工智能分为训练（Training）和预测（Predict）两个环节。机器训练算法的效果依赖于所输入的数据质量的优劣，如果输入的数据存在偏差，那么输出的算法也将产生偏差，这可能直接导致所得结果的不可用。数据治理在提升数据质量方面具有重要作用。通过梳理数据质量需求、定义数据质量检查规则、制定数据质量改善方案、设计并实施数据质量管理工具、监控数据质量管理操作程序和绩效等数据质量管理环节，企业可以获得干净的、结构清晰的数据，为深度学习等人工智能技术提供可信的数据输入。

2.数据治理为人工智能保障数据隐私

当前人工智能发展中面临的很大制约就是数据权属和隐私保护问题。个人隐私数据应该受到保护，这些数据的滥用可能对个人造成巨大的财产损失甚至人身伤害。所谓隐私保护，其实就是对隐私数据的保护，归根结底是对数据用户的隐私保护。数据治理工具从技术层面设计了保护隐私数据的诸多环节，提供数据模糊化、数据脱敏、数据加密，可为企业个人数据保护奠定基础，从而实现人工智能应用的数据合规性。

二、人工智能提升数据治理智能化水平

1.元数据管理

在传统的元数据管理中，对于非结构化数据的元数据采集通常是通过创建非结构化数据的搜索索引的方式。而语音识别、图像识别、文本分析等人工智能技术能帮助实现元数据的最初业务词库的构建，成为提取各类有价值的非结构化元数据的资源池。

2.数据标准管理

在数据标准的实施初期，需要对存量系统的数据库字段进行摸底，识别出共有的、重复使用的业务字段，作为建立数据标准的依据。如果完全靠人工梳理，需要协调各业务部门大量人员参与，工作量巨大且容易出错。借助机器学习、自然语言处理技术，可以根据字段业务名快速的整理出高频词根，将可能需要几个月的工作在几天内完成。

数据标准管理的另一个重要环节是标准与元数据的映射。在业务系统众多，数据标准与业务系统的元数据进行映射往往是实施工程师的恶梦，一不小心就容易出错。有了人工智能技术，可以对业务字段名进行自然语言处理，精确分词，根据词根相似性将数据标准与元数据自动映射起来。

3.数据质量管理

数据质量是保证数据高效应用的基础。衡量数据质量的指标体系包括完整性、规范性、一致性、准确性、唯一性、时效性。在实施数据质量提升方案之前，需要依据不同的业务规则和业务期望选择合适的数据质量指标体系，并进行数据的清洗。

一般数据质量改善的理想模式是从数据源头剔除脏数据，但是在现实中并不可行。因此，根据业务期望，应针对性地提升各个业务阶段的数据质量。机器学习（如分类学习、聚类、回归等）可提取并识别存在的质量问题，从而制定有效的数据质量评估指标，最大化实现该指标下的数据质量的提升。同时，监督学习、深度学习也将实现对数据清洗和数据质量的效果评估，进而改善转换规则和数据质量评估维度，并随着数据量和业务期望的逐渐变化，使数据质量提升方案动态更新。

4.数据安全

数据安全是指让信息或信息系统免受未经授权的访问、使用、破坏、修改、销毁的过程或状态。人工智能技术可以进行敏感数据的分类分级。应用机器学习、自然语言处理和文本聚类分类技术，能对数据进行基于内容的实时精准分类分级，而数据的分类分级是数据安全治理的核心环节。例如，利用数据分类引擎在邮件内容过滤、保密文件管理、情报分析、反欺诈、数据防泄露等领域明显提升了安全性。

5.主数据管理

主数据指企业核心业务实体的数据，也叫黄金数据，是在整个价值链上被重复、共享应用于多个业务流程的、各个业务部门与各个系统之间共享的基础数据，是各业务应用和各系统之间进行信息交互的基础。但是在主数据管理的过程中，企业可能面临如何在数量庞大的数据项中识别主数据、如何建立统一的主数据标准等问题。

确定主数据依赖于企业对于业务需求的理解和相应“黄金数据”的定义。通常来说，每个主数据主题域都有自己专用的记录系统，并且分散在各个业务系统中。人工智能相关技术可以帮助我们在所有数据中筛选出频繁出现或流动的数据，同时快速确定主数据的可靠与可信数据来源，构建完整的主数据视图。

6.人工智能帮助重复数据自动匹配和合并据

数剧管理面临的一个挑战是在企业众多的系统中对于同一数据项或者重复的数据项进行匹配和合并，解决该挑战的一个方法是构建数据匹配规则，包括不同置信水平的匹配接受度。有些匹配需要极高的信任度，可以基于跨多个字段的准确数据匹配实现；有些匹配仅仅由于数据值的冲突，可以采用较低的信任度。机器学习、自然语言处理可帮助建立重复数据识别的匹配规则，在识别字段重复的主数据之后不进行自动合并，并确定与主数据相关的记录，建立交叉引用关系。

三、数据治理平台的智能化

通过人工智能技术降低数据治理的门槛将成为数据治理发展的重要方向。充分考虑到数据治理高复杂性的特点，数据治理平台不断融合AI新技术，力求通过智能化管理来简化数据治理实施过程，大大地解放技术人员，帮助企业实现更高效的数据治理，远离“数据黑洞”。

1、智能化元数据服务。睿治平台支持全自动元数据采集和关联，实现元模型智能化应用，提供图形化元数据分析视图。

2、智能化探查数据质量。睿治平台内置数理统计算法、绑定机器学习算法，实现自动探查数据质量，同时支持智能修复。

3、智能化构建数据标准。睿治平台支持智能化映射及落标，形成的数据标准和业务数据双向评估。

4、智能化识别主数据。睿治平台自动识别主数据，帮助重复数据自动匹配和合并，构建完整的主数据视图。

随着数据治理和人工智能两个领域的快速发展，二者的融合将会有更多场景和商业模式。

四、数据治理+AI的行业融合

AI技术创新应用大规模落地，带动大数据智能市场蓬勃发展

企业在部署AI应用时，数据资源的优劣极大程度决定了AI应用的落地效果。因此，为推进AI应用的高质量落地，开展针对性的数据治理工作为首要且必要的环节。而对于企业本身已搭建的传统数据治理体系，目前多停留在对于结构性数据的治理优化，在数据质量、数据字段丰富度、数据分布和数据实时性等维度尚难满足AI应用对数据的高质量要求。为保证AI应用的高质落地，企业仍需进行面向人工智能应用的二次数据治理工作。

面向人工智能的数据治理是传统数据治理体系在以AI应用落地为导向下的体系“升级”。

从数据管理维度来看，面向人工智能的数据治理体系仍会根据数据结构化流向、数据资产管理需要、数据安全需求等角度顺应搭建元数据管理、数据资产管理、主数据管理、数据生命周期管理和数据安全隐私管理等组件模块。而在数据治理过程中，则会更强调底层实现多源数据融合、数据采集频率、数据标准建立、数据质量管理，满足AI模型所需数据的规模、质量和时效，以AI应用的数据需求为核心，优化对应模块的体系建设。

AI应用驱动成为面向人工智能的数据治理服务的核心立足点

面向人工智能的数据治理服务常包含于数据服务、平台能力和数据产品三类采购形式中。第一类，数据服务即以单独的数据治理产品形式出现；第二类，数据平台，主要包括大数据平台、数据中台、数据仓库和AI能力平台等项目；第三类，数据产品，范围限定在应用AI算法的数据产品，可划分为机器学习产品、自然语言理解产品和知识图谱三类AI产品。

如今AI产品需求旺盛，AI开发平台陆续推进AI产品的规模化落地，且AI数据治理效果与最终平台产品交付效果紧密相连。

总体来看，前沿技术手段应用可以让数据治理工作趋于流程化、自动化与智能化，同时让数据变得可扩展、更负责可溯、更可信，已然成为未来数据管理发展的必由之路。

打造“治理+AI”体系的良性循环

相互关联，互为依托，共同促进人工智能应用的内外发展

面向人工智能的数据治理充分利用机器学习技术，将数据治理环节自动化智能化，可极大提升数据治理工作效率，同时基于自然语言理解和知识图谱挖掘关联非结构化数据的应用价值，解决数据质量管理的传统难题，使治理后的数据更加契合AI应用的要求，从效率和质量双侧推进AI模型的落地应用。

与此同时，AI应用落地效果的显著优化也会给企业带来更多智能化转型信心，让其加大相关AI项目的预算投入，进一步推进相关治理体系建设，打造“治理+AI”的良性循环