肯睿Cloudera：2024年生成式AI及云领域的五大趋势预测

就在十二个月前，“生成式设计人工智能”还处于Gartner新兴技术成熟度曲线的边缘；而如今，Gartner认为“生成式人工智能”（生成式AI）已接近期望膨胀期的顶峰。

生成式AI的优势令人趋之若鹜且影响深远。分析师认为它将影响各个主要行业和工作岗位。麦肯锡在2023年的一份报告中指出，当前的生成式AI等技术有可能使目前占用员工60%至70%时间的工作活动实现自动化。IDC的研究也强调了今年亚太地区有三分之二的企业正在探索或投资于生成式AI。

随着2024年的临近，预计企业将加大力度实现生成式AI操作化和改进，并调整其管理各个环境（尤其是云环境）日益增长的数据量的方式，以提高灵活性，并推动业务增长。

以下是2024年生成式AI及云领域的五大趋势预测。

趋势一：强大的MLOPS和数据集成赋能生成式AI的操作化

自2022年11月ChatGPT v3.5发布以来，企业一直面临着一个难题：如何一面安全地为其提供足够的上下文数据以使其发挥作用，一边充分挖掘其优势。

ChatGPT和其他基于软件即服务（SaaS）的大型语言模型（LLM）给企业带来了巨大的数据隐私挑战。在许多情况下，问题、答案和上下文数据都可能是敏感数据，而这对于重复使用这些数据来重新训练模型的公共多租户服务来说是不合适的。

快速发展的开源LLM（如Meta的Llama-v2）已具备与ChatGPT旗鼓相当的性能，并成为了可行的替代方案。但生成式AI模型很难通过可扩展且可靠的方式从实验室转移到生产中。更何况这些模型通常还需要在多个应用之间共享，因此与传统的机器学习（ML）模型相比会带来更大的数据集成挑战。

预计在2024年，企业将继续专注于开发强大的机器学习操作（MLOPS）和数据集成能力。

趋势二：企业将加倍重视检索增强生成（RAG）和微调功能以优化LLM

优化LLM性能的方法包括提示工程、检索增强生成（RAG）和微调等。

RAG使用知识库中的内容丰富提示并提供必要的上下文。RAG架构的关键组成部分之一是一个以特殊方式编制索引的知识库内容数据库。

用户问题先被转换成数学表达形式，然后用于搜索数据库中与之最接近的内容。用户问题作为提示的一部分被发送至LLM进行推理。同步提供问题和领域上下文可显著改进推理结果。

事实证明，由于RAG不需要对LLM进行任何训练或调整，同时还能生成出高质量的结果，因此它是采用LLM的一条有效途径。不过，它确实需要数据工程管道以维护知识库，还需要专门的向量数据库存储索引数据。

相信在2024年，RAG仍将是许多企业采用生成式AI的一条可行途径。

性能高效微调（PEFT）在2023年备受关注。高效微调在特定领域数据上训练一个小型神经网络并与通用LLM并存，它能够以极低的成本和极少的训练数据，实现反复训练大型LLM所获得的大部分性能优势。虽然对LLM进行微调需要更强大的ML能力，但可以带来更高的效率、可解释性和更准确的结果，尤其是在训练数据有限的情况下。

预计在2024年，像高效微调这样的微调方法将被越来越多的企业用于新项目，并取代早期的RAG 架构。在拥有较大、较强数据科学团队的企业中，这种方法的应用将最为广泛。

趋势三：企业将从“云优先”转向谨慎的云战略

2024年，云计算将继续成为企业数据战略中的一项重要变革技术。

一些企业在2023年将他们的云战略从原先的“云优先”调整为谨慎、平衡的战略，这与大多数大型企业所采取的保守举措不谋而合。推动这一转变的因素包括云对许多可预测的分析工作负载的经济性、数据管理法规、考虑到经济状况不确定性的企业财政政策等。

这些企业已选择跨公有云和私有云的云原生架构支撑其数据和云战略，而云原生所带来的灵活性、可扩展性和所节省的成本可抵消因其增加的架构复杂性。

由此产生的跨公有云和私有云的数据编织架构为智能、自动化和策略驱动的数据管理方法奠定了基础。

趋势四：数据管理自动化、数据民主化和零信任安全仍将是首要考虑因素

由于数据仍在以成倍的速度生成和被获取，企业需要提高数据平台管理的自动化和智能化水平。因此，跨基础设施、平台和工作负载的可观察性将在 2024 年发挥更加重要的作用。

而这是实现高性能、高可靠性和高效率智能平台自动化的先决条件。用于训练ML模型的运营数据将成为智能数据平台的核心。数据从业人员将继续推动数据的进一步民主化并增加更多的自助服务选项。这一点与Data Mesh范式最重要的原则之一相吻合。

最具创新性的企业将赋能数据科学家、数据工程师和业务分析师，让他们无需通过数据关守就能从数据中获得更多洞察。在2024年，企业和技术提供商将重视消除数据生命周期各个阶段的摩擦，以及增加对实时数据的访问。

各种混合云原生架构的出现、第三方SaaS与平台即服务（PaaS）的采用以及网络安全的加强继续推动人们对数据安全、零信任以及明确划分数据管理责任的关注。

零信任要求对使用数据的用户和系统进行持续身份验证和授权。这些主体将越来越多地被授予执行特定任务所需的最低权限，同时也受到严格的审核。这将成为推动数据治理和管理创新的一项重要职能，同时满足日益增长的数据访问民主化需求。

随着数据联邦日益受到关注，预计在2024年，技术将进一步简化企业内部乃至企业之间的零信任落地与执行。

趋势五：向开放式数据湖仓迁移已迫在眉睫

数据湖仓的实现方式在2022年出现了重大创新，业界领先的数据管理提供商奠定了Apache Iceberg“正式格式”的地位。Iceberg作为首选的开放技术之一而被迅速采用，而几乎可以确定的是，这将影响一些数据管理提供商改变其开源战略并在其产品中加入对Iceberg的支持。

预计在2024年，数据和工作负载将稳步迁移至跨公有云和私有云的开放式数据湖仓架构中。

***

关于Cloudera肯睿

在肯睿 Cloudera，我们深信数据完全有能力将今天的不可能，在明天成为可能。肯睿 Cloudera 可以将放置在不同地方的数据转化为可信的企业人工智能，从而降低成本和风险，提高生产效率，加速业务发展。无论数据驻留于公有云还是私有云环境，我们的开放式湖仓一体解决方案，都可帮助数据管理安全进行以及云原生数据分析的有效移植，助力企业实现对各类数据的管理和分析。

凭借管理着与大型云服务供应商类似的海量数据，肯睿 Cloudera 成为全世界领导企业优选数据合作伙伴之一。通过对数据价值的不断发掘和数据未来的不懈探索，肯睿 Cloudera 始终推动行业变革，同时，依托开源社区的持续创新，肯睿 Cloudera 将继续为打造一个生机勃勃的生态系统而贡献自己的力量。