实施稳健的AI治理以实现数据民主化

根据Gartner的数据，到2026年，超过80%的企业将使用GenAI API和模型，或在生产中部署启用GenAI的应用程序，而去年这一比例不到5%。GenAI的自然语言界面允许非技术用户，从部门负责人到一线工作人员，更轻松地访问和使用数据。这在获取信息和技能方面创造了公平的竞争环境，Gartner称这是“本十年最具颠覆性的趋势之一”。

如果公司要避免隐私、安全和数据质量方面的风险增加，以这种方式实现数据民主化就会使强有力的治理变得更加关键，这意味着准确地知道你拥有什么数据、驻留在哪里、谁有权访问这些数据以及每种类型的用户被允许如何使用这些数据，但一个企业如何在不压制创新的情况下实施全面控制？

在较高级别上，理想的方法是将数据统一到一个综合存储库中，多个团队和工作组可以轻松、安全地访问该存储库，统一数据使企业能够集中管理并扩大对数据的访问，同时最大限度地降低复杂性并优化成本。

在现实中，这可能是具有挑战性的，因为数据主权法律要求将某些数据保存在特定的国家或地区。在这种情况下，企业应该努力消除孤岛，并在其数据平台上应用一致的治理框架。

除此之外，几种特定的方法和技术有助于确保企业可以保持强大的治理，同时仍然通过GenAI扩大对数据的访问，其中一些是适用于任何环境的基本治理实践，但当GenAI进一步民主化数据访问时，它们变得更加重要。

针对隐私和法规遵从性的精细控制

随着越来越多的员工访问更多的数据，个人身份信息(PII)可能被泄露或被错误的用户看到的潜在风险只会增加，精细的控制策略以及匿名化和身份识别技术对于确保法规遵从性和防止数据被错误的人访问至关重要。

在我们分析雪花数据云趋势的新《数据趋势2024》报告中，我们注意到治理功能的使用显著增加，这些功能在提供对数据的精细控制的同时，还适当地将其提供给更多的用户，用于更多的用例，例如，在截至2024年1月31日的12个月中，应用的掩码或行访问策略的使用量与去年同期相比增加了98%，与此同时，分配了掩码策略的列数增长了97%。

然而，值得注意的是，针对受策略保护的对象运行的查询总数上升了142%，这个数字意义重大，因为它表明良好的数据治理不是说“不”和限制数据使用。尽管看到越来越多的治理通过使用标签和屏蔽政策，但报告指出，使用这些数据所做的工作量正在迅速上升。

在某些情况下，员工可能希望检查他们不能被授予直接访问权限的数据集，在这种情况下，差异隐私是一项强大的技术，因为它允许用户通过查看数据集内的模式来共享和探索数据集，而不会泄露任何个人用户的PII。更进一步，数据净化室允许多方在不向彼此披露原始数据的情况下就数据进行协作，数据净化室通常用于在不同企业之间共享数据，但我们正在看到内部使用的技术来满足日益增长的监管和隐私需求，它可以成为在GenAI界面环境中探索PII数据的有效技术。

一致、协调的安全性

安全应该构建在数据平台的结构中，而不是试图稍后为个别数据集和用户固定它，支持对话界面的技术不应该复制数据上的身份和其他核心权限，这将导致脆弱的设置。如果两个或多个系统都在跟踪谁可以访问哪些数据，则出错和未经授权访问的可能性会大大增加。

在保护GenAI用例的数据方面发挥关键作用的技术包括持续的风险监控和保护、基于角色的访问控制(RBAC)和细粒度授权策略。基于角色的标记和基于标记的掩码策略允许你通过将掩码策略分配给标记，然后在一个或多个数据库对象上设置该标记，从而在列级别保护数据。

数据孤岛是良好治理的敌人

将数据的副本或片段存储在不同的系统中，使得跟踪谁可以访问哪些信息以及保持访问和控制策略的一致性变得极其困难，这就是为什么数据孤岛是强大治理的敌人。

数据孤岛还使得很难确保员工查询的是最新、最准确的数据，这可能会导致代价高昂的错误。为了通过GenAI实现对数据的广泛访问，企业需要一个单一的真实来源，以确保所有员工都在查看相同的信息，并且可以在所有数据中全面应用和更新控制和策略。

确保数据质量以获得准确的结果

即使你消除了孤岛并拥有适当的权限，也不能保证员工访问的信息是正确的，数据质量框架基于应用于表中特定列或一组列的可配置数据质量规则，可以帮助检测质量问题并确保准确的信息。

此外，到目前为止，我们都知道，GenAI有时会产生幻觉，并产生实际上没有根据的答案，这对于企业使用来说是不可接受的。企业可以通过将大型语言模型(LLM)与他们知道值得信任的数据源相结合来解决这一问题，例如内部客户数据库或来自可信第三方提供商的经过审查的数据集。

这些受信任的数据源可以使用需要LLM定制(如微调)或不需要LLM定制(如即时工程或检索增强生成(RAG))的过程合并。无论是哪种情况，这些技术都有助于确保员工收到准确、高质量的结果，同时遵守内部云环境中内置的治理标准。

数据访问和通用搜索的威力

GenAI治理的一个重要方面是让员工很容易找到合适的数据集和数据产品来帮助他们进行分析，人工智能如此强大的一个原因是，它允许员工在不通过中央团队的情况下与数据交互，但这需要这些员工知道他们可以获得什么数据，以及如何找到这些数据。

搜索功能提供了这一功能，允许用户查找和查询数据集和数据产品，这一搜索功能本身可以由LLM提供支持，使数据搜索更加直观-这是我们在Snowflake开发的，作为我们通用搜索的一部分。

治理是数据民主化的基础

商业用户渴望更广泛地利用他们组织的数据，而GenAI最终使这成为可能。多亏了LLMS和自然语言处理，财务、人力资源、销售和运营等领域的员工现在可以针对自己的角色制定问题，并获得他们做出更明智决策所需的答案。

但要满足企业的安全和法规遵从性需求，这只能在具有强大治理的环境中发生，治理越强，你的员工就越能自由地浏览数据，而不会给公司带来额外的风险，GenAI为真正的数据民主化打开了大门，而良好的治理是使之成为可能的基础。

genai 数据集 llm 数据质量数据源通用搜索搜索功能数据库数据访问自然语言 2024 数据平台人工智能一致性个人身份匿名化风险监控检索增强生成检索增强 lms