麻省理工科技评论称：数据是生成式AI的基础

预训练的大型语言模型（LLM）如 GPT-4和 Gemini 备受组织关注，他们渴望利用 LLM 构建聊天机器人、副驾驶等应用。根据麻省理工科技评论的最新报告，名为 “C 级领导人的 AI 准备情况”，该报告是代表 ETL 供应商 Fivetran 进行的调查发现，将 AI 或 GenAI 扩展是82% 受访高管的 “首要任务”。

图源备注:图片由AI生成，图片授权服务商Midjourney

调查发现，83% 的组织已经确定了要用于 AI 或 GenAI 的数据来源。但是，组织在实际连接 GenAI 并在需要时、以适当格式、清洁和准备充分地向 GenAI 应用程序提供数据方面准备得如何，存在疑问。同时还需要确保不会危及隐私或安全。

报告指出，平均来说，组织需要 “超过十几种不同的技术来收集关于其数据的所有智能信息，相同数量的技术来集成、转换和复制数据”，这带来了巨大的困难。由于过去为中心化数据仓库项目开发的数据集成和 ETL 工具可能不适合新的 GenAI 用例，因此获取更好的数据集成和 ETL / 数据管道工具显然是一项重要任务。

此外，调查发现，虽然64% 的调查对象表示数据集成和 ETL / 管道工具是其前两个 GenAI 投资重点之一，但35% 的人将数据湖视为优先事项，而31% 的人将数据转换工具视为优先事项。数据目录和 LLM 投资的份额仅为7%，而矢量数据库和计算层位于中间位置。组织在构建数据基础时面临着许多挑战，包括数据集成和构建数据管道、数据治理和安全以及数据质量等问题。

调查还发现，组织在数据治理、合规和报告方面存在诸多挑战。大量调查对象指出，准备数据供 AI 使用的最大挑战是数据治理和安全（44% 的受访者提到），以及数据集成或管道(45% 的受访者提到)。然而，深入调查数据却显示了一种明显的分歧。特别是，调查显示，对安全和治理的积极关注主要集中在政府和金融服务机构，而在制造业、零售业和其他行业的科技高管中，对安全和治理的担忧并没有同样的比例。

“组织可能无法控制某人在业务应用程序中使用数据并将其发送给生成式 AI 模型。这些都是重要的问题。” 调查报告引述 IDC 的 Bond 在报告中说道。建立强大的数据基础是 GenAI 成功的前提条件。如果组织不先构建坚实的数据基础，他们的数据科学家将在基本的数据集成和清理工作上浪费时间。

genai 数据集数据集成 etl llm 数据治理数据管道应用程序数据湖调查数据预训练科学家数据转换金融服务数据质量转换工具副驾驶数据仓库 midjourney 生成式 ai