2024年大数据展望：数据满足GenAI

去年初，谁能想到GenAI和ChatGPT会抢占先机?

一年前，我们预测数据、分析和AI提供商最终会抽出时间来简化和重新思考现代数据堆栈，这是一个我们已经接近和热爱了一段时间的话题。作为分布式企业中数据治理的解决方案，也有很多关于数据网格的讨论和担忧，我们还预测了数据仓库的崛起。

那么，这一切在2024年将如何发展呢?在未来一年里，我们将看到GenAI在向量索引、数据发现、治理和数据库设计方面发挥重要作用，这并不令人惊讶，但让我们首先回顾一下AI在过去一年里是如何影响我们的预测的。

那么，2023年的数据发生了什么?

事实证明，去年的预测其中许多都成真了。

我们看到了通过扩展云数据仓库服务来集成SAP SE、微软、甲骨文等公司的交易、数据转换管道和可视化，在简化和扁平化现代数据堆栈方面取得了真正的进展，此外，Amazon Web Services Inc.还大幅扩展了其zero-ETL (提取/转换/加载)功能，将操作数据库与RedShift和OpenSearch捆绑在一起，克服了其数据库产品组合中的一个关键弱点。

正如我们所预期的那样，现实检查打击了数据网格，因为企业正在努力应对使联合数据治理成为现实的复杂性，现在有了一种将数据视为产品的新意识，但数据产品的定义仍在旁观者的眼中。

至于我们称之为“the revenge of the SQL nerds”的数据仓库，Apache Iceberg成为了连接数据仓库和数据湖的事实上的标准开放表格格式，就连Databricks Inc.也打开了大门。

在第一季度，几乎没有提到GenAI，但奇怪的是，4月1日左右，科技界发生了180度大转弯，正如我们在今年夏天发布的Gen AI Trip报告中所指出的那样，自去年11月发布以来，OpenAI的ChatGPT在短短几个月内就获得了1亿用户，这比Facebook、Instagram和Twitter快得多。

突然之间，每个数据、分析和AI解决方案提供商都必须有一个GenAI故事，矢量数据支持成为操作数据库的一个复选框功能，英语(以及越来越多的其他流行语言)正迅速成为世界上最受欢迎的应用程序编程接口和软件开发工具包，尽管存在知识产权问题，但人们对Gen AI自动生成代码的潜力非常感兴趣。

当然，生成性模型不仅仅与语言有关，他们还可以将像素组装成图片，为所需功能吐出样板代码，拼凑音符形成歌曲，并利用分子结构、地理空间和几乎任何其他形式的数据来寻找概率联系，但大多数人的注意力都集中在大型语言模型上。

在幕后，硬件变得和Jensen Huang的商标黑色皮革轰炸机夹克一样酷，这位NVIDIA的CEO几乎无处不在地出现在我们举办的几乎每一场云会议上，如果Huang没有在舞台上露面，那么他的主旨演讲就不完整。

尽管每个人都想成为NVIDIA的好朋友，但争夺第二来源的竞赛已经开始，图形处理单元的稀缺已经到了企业只能通过长期、一到三年的硅片承诺才能获得访问的地步，以备不时之需，平均利用率可能只有20%左右。在这里，我们可以看到为AI工作带来了一个未使用的GPU周期的售后市场。

这里是数据的角度：每一个AI模型的成功——生成性或经典ML——取决于模型的相关性、性能和准确性，当然还有数据的相关性和质量。在新的生成世界中，“垃圾输入，垃圾输出”仍然一如既往地切合实际。

为2024年做好准备

十年前，数据是风险投资的中心。浏览一下2010年代Strata旧大数据会议的会议日程，我们的议程上挤满了提供大量辅助工具和服务的初创公司，这些工具和服务以Hadoop、流媒体、目录和数据争论为中心。

可以说，那里有相当高的死亡率，这是达尔文主义的秩序。快进到今天，AI已经取代数据成为风险投资的热点。根据经济合作与发展公司的数据，在过去十年中，AI一直是同期风险融资增长最快的行业。经合公司的一个相关有趣事实是，在此期间，实际的AI风险投资增长了28倍。

诚然，过去几年的情况更加低迷，但如果OECD的图表更新，我们预计风险投资比例和AI倍数的增长将会继续。

根据PitchBook的数据，2023年第三季度，整体风险融资降至2017年以来的最低水平，早期融资与五年低点同步，但富人们正在变得越来越富有，微软100亿美元的支持下，开放AI显然是一个典型，然后是Anthropic PBC，它得到了来自AWS和谷歌有限责任公司的约50亿美元的支持，最近又获得了7.5亿美元的融资，其估值达到了相当高的150亿美元，相当于收入的75倍。

问题不是这个泡沫是否会破灭，而是何时破灭。由于2024年利率可能会下降，这一清算时刻不太可能立即到来，这项技术太新了，客户不会失望。

但请稍等，OpenAI、Anthropic、Cohere Inc.或其他公司，2024年可能会被标记为寒武纪适合用途的、更紧凑的基础模型或FM的开始。我们预计，这一类别的融资将上升到较长尾的公司。

这些适合用途的FM的增长将受到对运营GPT等大型模型的巨额支出的强烈反对。有了学习曲线，数据科学家将在优化生成模型的合适大小的训练数据库方面变得更有先见之明。

正如我们几个月前指出的那样，GenAI可能是市场上闪闪发光的新事物，但在幕后，“经典”ML模型将继续发挥重要作用。当尘埃落定时，为任务的正确部分使用正确的模型，将会有更多的平衡。

在数据库方面，我们看到了一种安全的逃亡。在一个仍有数百个引擎的环境中，人们对新的数据库初创公司几乎没有兴趣，但显示最受欢迎的10个引擎基本保持稳定。

Couchbase Inc.是一个很好的例子，它从失去的十年中恢复过来，勉强实现了可观的增长，但它的市场份额永远不会达到与MongoDB持平的水平，后者曾是它的竞争对手。除了这一群体，我们认为2010年代的前景渺茫——蟑螂实验室公司、Yuabyte公司或Aerospike Inc.等老牌初创公司取代了现有的秩序。

那么，我们应该在2024年的数据库环境中寻找什么呢?一个广泛的暗示是，其中很大一部分将与支持和内部利用AI有关。

向量索引和BI整合

向量指数不会成为头条新闻，也不会是GenAI-商业智能集成，但这将是2024年最重大的数据库创新。数据库供应商今天将扩展他们的通用向量索引产品，提供更多的优化选择，他们将加入编排，允许使用表格、BI风格的结果丰富Gen AI查询。

回到基本问题，那么GenAI与数据库有什么关系呢?对于运行例程查询，持久化数据比按需填充数据更有效。对于生成性模型，能够访问新的或更相关的数据是使它们在模型训练所依据的数据语料库之外保持最新的关键，这就是检索增强生成(RAG)和向量的用武之地。

毫不奇怪，数据库部门去年的回应是增加了存储向量嵌入的能力。对于现有的操作数据库，这几乎是不费吹灰之力的，因为向量只是另一种要添加到混合中的数据类型。AWS、DataSTax Inc.、微软、MongoDB Inc.、Snowflake Inc.和各种PostgreSQL变种也加入了这一潮流。

我们还看到了专门的病媒数据库的出现，例如来自松果系统公司和Zillis公司及其Milvus的数据库。我们预计矢量数据库环境将以与图形相同的方式发展：出现了几个专门的数据库，用于服务于涉及极端规模和复杂性的用例，其中大部分操作来自我们已经使用的数据库，这些数据库正在或正在将矢量数据支持添加为一项功能。

随着大多数操作数据库添加向量存储，我们将索引视为下一个前沿，这也是GenAI支持方面的大部分差异化之处。大多数添加向量存储的数据库都是从基本的索引开始的，该索引没有针对特定的服务级别协议进行优化，这种情况即将改变。

原因如下：向量索引不是平等创建的。向量索引搜索标识相似项目的“最近邻居”(也称为“相似性搜索”)，但有不同的方法来优化相似性搜索，这反过来又会根据它们支持的索引类型来决定使用什么数据库。

向量索引的变量包括查找率，它衡量为特定查询检索到的相关数据实体或项的比例。从本质上说，有两种选择，一种是低召回率，一种是快速而肮脏的方法，运行起来更经济，提供的是大体情况，另一种是高召回率，它更全面，对结果更严格。

因此，用于生成营销内容的生成性应用程序可能会使用低召回率向量索引，而与合规相关的用例将需要更全面、更昂贵、更高召回率的搜索。向量索引中还有针对速度(性能)或比例等参数进行优化的其他变体。

例如，Milvus提供了近12种不同的向量索引类型，它们针对数据集的大小、速度、召回率、内存占用和维度(查询复杂性的衡量标准)进行了优化，而Oracle提供了内存中索引的选择，以实现更紧凑的搜索，以及一种旨在跨多个分区并行扩展的索引。

硬币的另一面是能够将向量查询的结果与表格数据混合和匹配。从字面上看，这将是GenAI数据库创新的明显一面，例如，一家为商业客户提供市场情报的提供商，它为关键字搜索提供了一种自然语言替代方案，将矢量商店中关于客户情绪的汇总数据与来自文档数据库(如MongoDB)的异类数据关联起来。

这里有另一个用例：制造商使用GenAI对产品质量问题进行根本原因分析，可以与跟踪保修和服务成本的关系数据库中的表格数据相关联。我们希望在能够协调这种复合查询的数据库平台中看到更好的结缔公司。

数据和AI治理开始走到一起

今天，数据治理和AI治理是独立的工具链，由不同的从业者运行：一端是数据库管理员和数据管家，另一端是AI开发人员和数据科学家，这个问题并不局限于GenAI，而是适用于所有类型的AI模型，而且早该融合了。我们预计在未来一年将开始看到通过跟踪和关联谱系将数据和AI治理结合在一起的运动。

这是一个棘手的挑战，仅以数据治理为例：在大多数公司中，它很难说是铁板一块。通常，不同的团队和参与者在数据质量、安全和隐私、合规性和风险管理以及整体生命周期管理方面处于领先地位，这些工作往往是重叠的，因为大多数公司都有多个工具，如数据目录，来执行相同的任务。

数据治理中的脱节引发了关于数据网格的讨论，这是关于在数据产品的整个生命周期中协调数据所有权与责任的问题，这在2022年的数据讨论中占据了主导地位。

与此同时，随着ML的采用从孤立的概念证明扩展到常规地嵌入预测性和规范性分析，AI治理迅速出现，它通常侧重于跟踪模型谱系、审计、风险管理、合规性，在某些情况下，还关注可解释性。GenAI加剧了这一挑战，需要更多地关注数据源的引用，同时引入新的问题，如检测(并允许删除)有毒或诽谤性语言，幻觉(当然)，以及版权和知识产权问题。

当然，挑战在于，在AI领域，模型和数据交织在一起，模型的性能、安全性和合规性与用于生成答案的训练和生产数据集直接相关，这就是为什么，当检测模型偏差时，问题可能很容易出在数据上，或者出在逻辑或算法上，或者两者兼而有之。

例如，有充分的文件证明，面部识别系统的可靠性很容易受到不同种族和国籍的过度或不足抽样的影响。当不同的人口普查区域或人口队列以不同的比率进行抽样时，对产品或社会服务的需求分析也是如此。

然后是漂移的问题，数据和模型可以独立漂移，也可以相互依赖，数据来源可能会改变，数据揭示的趋势也可能要求模型反过来调整其算法。你不会想用今天的数据来解决昨天的问题，反之亦然。

在接下来的一年里，我们预计AI治理工具将开始关注数据谱系，它是审计跟踪可以开始的逻辑点，评估哪个模型的哪个版本针对什么数据的哪个版本进行了培训，以及谁是拥有和担保这些更改的责任方。

从那时起，以后可能会出现更复杂的能力，跟踪和关联数据质量、准确性、合规性等。随着许多ML模型在数据库中执行，我们看到了数据目录合并模型资产的巨大机会，并由此成为应用治理的点。

我们很感兴趣地看到，IBM完成了对Manta Software Inc.的收购，以实现数据沿袭，同时也揭开了AI治理领域Watsonx.治理的面纱。虽然IBM的时机是巧合的，但我们希望它最终会利用这个偶然的机会。

GenAI丰富了数据发现和治理

不足为奇的是，Gen AI最受欢迎的用例一直围绕着从查询到编码的各种任务的自然或对话语言界面。我们预计，数据发现和治理将是未来一年GenAI增强的主要目标。

让我们从自然语言或会话查询开始，一些很好的早期例子包括QuickSight中的ThoughtSpot Sage、Databricks Lakehouse IQ和Amazon Q，它们继承了Tableau Ask Data等面向关键字的前辈的做法。我们预计Tableaus和Qlik将在2024年做出回应。

我们还预计，自然语言将围绕数据生命周期中涉及的阻塞和处理发挥各种功能，从编目数据到发现、管理、管理和保护数据。Atlan是一家专注于DataOps的数据目录提供商，它提供了我们预计今年会看到更多内容的一瞥。Atlan从一个常见的自然语言搜索功能开始，该功能与越来越多的BI工具提供的自然语言查询功能非常相似。

但它进一步改进了数据库元数据的自动发现(例如，数据资产的表名和列名、模式规范和谱系)，以生成简单英语的文档。作为自然语言SQL代码生成的镜像，Atlan可以将现有的SQL转换为纯语言描述。

这只是冰山一角，对这些自动文档功能的逻辑扩展将从业务术语表中提取数据，并将它们与表元数据相关联，反之亦然。GenAI的自动汇总能力可以指向书面政策、规则和事件，以记录对风险管理护栏的遵守情况。读取表元数据和SQL转换可以丰富或生成参考数据，以协调数据库和应用程序之间的数据，并找出差距或遗漏，这些只是我们预计今年会出现的几种可能性。

GenAI与数据库设计

追随自动代码生成或指导的脚步，GenAI还可以帮助数据库设计人员简化数据库的开发和部署，当然，这将继续需要人类参与——我们不应该让一个聪明的机器人在没有干预的情况下设计数据库，但语言模型扫描、汇总和突出显示数据语料库的能力，可能使其成为数据库开发的主要生产力工具。

诚然，AI已经被用于数据库操作的许多方面，从查询优化到索引创建、自动调优、配置、修补等，Oracle自治数据库是完全自动驾驶自动化的典范。尽管在一些运营领域，ML已经被用来优化或提供可以由GenAI补充的建议，但我们相信，最大的回报将是数据库处理数据内容的方面，这也是我们预计2024年下一波AI创新将发生的地方。正如前面提到的，我们已经略微了解了自然语言查询和SQL代码生成。

在短期内，我们预计将看到GenAI数据库创新专注于数据的结构化。利用转换器模型用于汇总和提取文档亮点的相同类型的功能，我们可以看到，通过输出E-R图、模式生成和基于实际数据的特征生成合成数据，可以将其应用于扫描用于数据建模的应用程序的需求文档。利用代码生成能力和检测隐式数据结构的能力，我们可以看到GenAI被应用于创建数据转换管道。

从长远来看，我们可以看到GenAI的出现，以补充已经应用于ML的任务，例如创建索引、错误和离群值检测以及性能调优，但我们不认为这些功能是2024年数据库提供商的首要任务，因为那里的好处将是渐进的，而不是变革性的。对于任何闪亮的新事物，让我们不要得意忘形。