2024年大数据行业预测（三）

深度学习

深度伪造危险：2024年将出现一系列消费者应警惕的深度伪造危险，尤其是在虚拟客户服务环境中。身份和验证(ID&V)是大多数行业的标准做法，在这些行业中建立了客户身份和交易权。然而，如果客户生成虚假图像，暗示某企业的产品被用来犯罪，深度伪造就有可能克服生物识别验证和身份验证方法，从而使身份盗窃变得更加容易。而这仅仅是个开始。深度伪造技术还处于起步阶段，只会变得更好、更狡猾。幸运的是，更多的预测信号可以用来检测潜在的欺诈行为，因为身份被盗可能意味着不良行为者可以通过身份和信息来获取欺诈信息。技术正在不断发展以解决这些问题，毫无疑问，今年我们将会看到重大的技术创新。–Brett Weigl，Genesys副总裁兼总经理

生成式人工智能

生成式人工智能将转向现代数据管理。从历史上看，数据管理有点像黑匣子，需要高技术技能才能有效地制定策略和管理数据。在LLM的帮助下，现代数据管理将改变其框架，允许用户以完全受控和合规的方式参与整个数据堆栈。–Vasu Sattenapalli，RightData首席执行官

人工智能将达到“生产力平台”：2023年，随着ChatGPT的发布，我们目睹了过高的期望和数十亿美元涌入人工智能初创企业。到2024年，我们将开始看到更多的生成式人工智能法案2.0.，企业不仅要构建一个基础模型，还要构建一个整体的产品解决方案，重新构想工作流程。我们将看到市场从“每个人都可以做任何事”的喧嚣转变为少数获得GenAI的企业提供真正的价值。–Tim Shi，Cresta联合创始人兼首席技术官

从基于基础设施的新一代人工智能到本地新一代人工智能将会迅速转变，因为目前这还不太可能。一般的初创企业没有数千美元可以投入到云提供商身上，而且事实证明几乎不可能自己运营，但随着围绕本地生成人工智能的创新，这种情况正在迅速改变。通过本地化，将拥有一个完整的RAG堆栈，并由访问控制控制。如此，便不会以任何方式暴露专有数据。当我们从集中式、基于API的LLM转向本地LLM时，这将会很快发生。那些行之有效的方案，也将会快速被采用。切记留意去中心化的LLM的缺点，因为其引入了循环中不良行为者的概念。–Patrick McFadin，DataStax副总裁

大型语言模型将于2024年商品化：当今的企业正在展开一场激烈的竞赛，以构建自己独特的大型语言模型(LLM)，例如OpenAI的GPT-4或Meta的LLaMA。然而，我预测这些模型将在2024年商品化。差异将取决于LLM中输入的数据，及其目的是什么。这与有线电视和流媒体领域发生的情况类似，每月的有线电视账单变成了许多不同的流媒体订阅。我们看到了类似的人工智能模型“拆分”，许多新企业成立，每个企业都有自己的差异化模型。未来，这些人工智能模型可能会聚合成一种单一的技术，而数据则是唯一的区别。–Spencer Thompson，Prelude Security联合创始人兼首席执行官

到2024年，生成式人工智能将产生的一个重要影响是，让人们能够在没有恐惧或尴尬的情况下讨论其财务担忧或困难。对于某些人来说，在寻求有关财务问题的建议时，与聊天机器人交谈比与真人交谈更容易。通过提供保密和非评判性的方式来获取财务建议和支持，人工智能将创造一个更具财务包容性的未来，每个人都可以获得所需的财务建议和支持，无论其背景或情况如何。–David Dowhan，SavvyMoney首席运营官

随着生成式人工智能变得更加主流，潜在的生产力提升将使这些组织受益匪浅。我们将看到技术领导者在培训、创新中心设立和采用新的开发平台方面投入更多资金，以最大限度地提高技术团队交付的价值。技术领导者需要采取双管齐下的方法，为数据实验提供创意游乐场，同时应用人工智能服务来加速取得成果。所有这些都需要管理创新创造，并减轻与公共人工智能模型相关的风险。–Miguel Lopes，OutSystems副总裁

ChatGPT引发的人工智能革命已经过去一年了，我们是否会很快被GenAI的戏剧性成功故事所包围，还是会看到迄今为止技术以最快的速度陷入幻灭的低谷?两者都有!精通人工智能的企业已经在增强其最有价值的员工，并偶尔将其自动化。随着清晰、可重复的GenAI用例的成熟，以及对MLOps和LLMOps的投资取得成果，这一趋势将获得动力。与此同时，大多数PoC都被民主化、外包GenAI的海市蜃楼所迷惑，一头扎进了生产级GenAI应用运营的现实，导致了普遍的幻灭。事实证明，关于AI的人类智能是GenAI成功的最重要因素，而“通用预训练Transformer模型”在专门针对特定用例和垂直领域时更有价值。–Kjell Carlsson博士，Domino Data Lab人工智能战略主管

LLM将帮助生成式人工智能进行更多推理，减少幻觉：AI正在超越ChatGPT的大型语言模型(LLM)文本世界，以及大型多模态模型(LMM)的中途景观，这些系统可以跨领域进行推理不同的媒体类型。这开辟了新类型的应用和可能性，例如基于图像的库存或小型企业的虚拟产品支持助理，并可能有助于将未来的人工智能系统建立在更真实的示例上，从而减轻幻觉的可能性。我们预计未来12个月会有更多应用，随着生成式人工智能通过声音、视觉和其他感官进行学习，不久的将来可能会带来能够区分现实和虚构的人工智能系统。–Ashok Srivastava，Intuit高级副总裁兼首席数据官

分析的商品化：自然语言处理(NLP)在提高用户对分析的采用方面发挥了重要作用。现在，NLP和大型语言模型(LLM)的正确组合，将有助于进一步实现分析的商品化。LLM有助于帮助用户在分析软件中执行复杂的计算。分析供应商将把这些功能整合到分析软件中，而不依赖LLM来填补空白，并减轻LLM带来的隐私问题。–Rakesh Jayaprakash，ManageEngine运营经理

2024年，重点将放在转型模式上，并提高针对特定市场需求的专业化程度。像ChatGPT这样的大型语言模型将演变成新一代，变得更加专门针对特定用例。人工智能内容在视觉应用中的使用将大幅增加，例如广告和新闻文章，这些内容由改进的生成式人工智能模型生成。此外，目前人工智能领域的种族偏见可能会减少。现在，如果向AI模型搜索一张男性照片，显示的照片中90%都是白人。人工智能模型必须更加反映世界才能继续跟上。–Steve Harris，Mindtech首席执行官

到2025年，ChatGPT将不再成为企业的主流技术：与大多数技术先行者一样，随着时间的推移，ChatGPT将变得越来越不重要。像Llama2这样的本地LLM将成为企业人工智能的引擎。造成这种情况的原因有很多，但数据安全性和通过用行业特定内容增强本地LLM来影响结果的能力，可能是推动这一变化的两个因素。–Jeff Catlin，InMoment副总裁

新一代人工智能将改变销售代表的角色：随着B2B公司专注于增加每位销售代表的收入，其将寻求通过人工智能为每位销售代表配备虚拟助手。为了高效增长，其需要在销售和上市技术堆栈中严重依赖GenAI功能。根据Forrester Research的数据，通过自动化围绕潜在客户研究、客户研究和参与渠道的某些任务，销售代表平均可以多花50%的时间来创造性地解决问题和采取富有成效的行动。–Henry Schuck，ZoomInfo首席执行官

人工智能冷水浴：根据CCS Insight的最新数据，2024年将是生成式人工智能面临“冷水浴”警钟的一年。企业被人工智能的过度炒作所吸引，制定了生产率和转型方面充满希望的长期目标。由于这些盲目性，许多人忽视了采用和部署Gen AI所涉及的成本、风险和复杂性负担。而且情况只会变得更糟!现在我们被告知，到2027年，人工智能所需的电力可能相当于整个国家所需的电力。人工智能的前景是巨大的，但资源是一个问题。并非每个组织或政府都能负担得起，也不是每个人都有资源将其嵌入到现有的系统和流程中。世界仍处于制定人工智能法规的早期阶段，缺乏设定的边界和安全网可能会使许多行业面临风险。在人工智能方面，我们已经经历了一段分裂的时期。事实上，人工智能的发展速度超出了许多人的预期，而且该技术需要不同的资源来运行。为了防止明年陷入“冷水澡”，组织必须对如何推动未来人工智能进行战略投资，如投资光子学和数字孪生等技术，以解决资源不平等的根本问题。利用尖端技术的力量可以帮助建立一个更加智能的世界，在这个世界中，人们和社会可以利用各种类型的可访问、互联和有凝聚力的信息来优化。–Tanvir Khan，NTT DATA首席数字和战略官

数据中毒：生成式AI的最新威胁：也许没有什么比ChatGPT更能说明机器学习和人工智能的快速主流化了。但随着算法成为日常生活的主要内容，其也代表了新的攻击面。这种类型的攻击被称为数据中毒。随着不良行为者获得更强大的计算能力和新工具，这种攻击变得越来越频繁。展望2024年，考虑到新机器学习和人工智能工具的普及和采用，企业预计会看到数据中毒攻击的增加，其中包括可用性攻击、后门攻击、定向攻击和亚群体攻击。不幸的现实是，数据中毒很难补救。唯一的解决方案是完全重新训练模型。但这既不简单也不便宜。随着组织将人工智能和机器学习用于更广泛的用例，了解和预防此类漏洞至关重要。虽然生成式人工智能有一长串有前途的用例，但只有我们将对手拒之门外并保护模型，其全部潜力才能发挥出来。–Audra Simons，Forcepoint Global Governments全球运营高级总监

GenAI将改变程序员的工作性质以及未来程序员的学习方式。编写源代码将变得更容易、更快，但编程不是为了磨练代码行，而是为了解决问题。GenAI将使程序员能够花更多的时间来了解其需要解决的问题、管理复杂性并测试结果，从而开发出更好、更可靠、更易于使用的软件。–Mike Loukides，O’Reilly Media副总裁

明确企业采用LLM的主要价值用例。虽然2023年是关于生成式人工智能的梦想，但2024年将是企业将其付诸实践的一年。经过一年的猜测，企业最终将明确应用LLM来简化其工作流程。到今年年底，将会出现一些人们能够理解的、基于场景的有价值领域，让我们摆脱“假设”的束缚，并揭示清晰的用例。–Quentin Clark,General Catalyst董事总经理

生成式人工智能将继续面临组织审查：随着生成式人工智能工具在2023年的快速增长，组织将在新的一年加强对人工智能工具对其员工和系统影响的审查。其中一个挑战是持续存在的错误信息和围绕人工智能工具合法性的问题，包括暴露的源代码和确定员工收到的结果合法性的能力。领导者需要建立验证和认证信息的方法，同时定义明确的参数，以确定员工如何在组织内使用人工智能工具。-Bret Settle,ThreatX首席战略官

将GenAI从试点转向生产：GenAI正在影响组织的投资决策。虽然早期的GenAI试点显示出了希望，但由于实践经验有限且发展迅速，大多数组织对全面生产部署仍持谨慎态度。到2023年，大多数组织都会进行小型、有针对性的试验，以仔细评估收益和风险。随着GenAI技术的成熟并通过预训练模型、云计算和开源工具变得更加民主化，预算分配将在2024年更多地转向GenAI。–Haoyuan Li，Alluxio创始人兼首席执行官

生成式AI将释放隐藏在非结构化企业数据中的价值和风险：非结构化数据，主要是内部文档存储库，将成为企业IT和数据治理团队迫切关注的焦点。迄今为止，这些内容存储库几乎没有在操作系统和传统预测模型中使用，因此它们已经脱离了数据和治理团队的关注。基于GenAI的聊天机器人和经过微调的基础模型，将解锁该数据的许多新应用，但也将使治理变得至关重要。那些急于开发GenAI用例而没有实施管理数据，和GenAI模型的必要流程和平台的企业，将会发现其项目陷入PoC炼狱，甚至更糟。这些新要求将催生用于管理非结构化数据源的专用工具和技术。–Nick Elprin，Domino Data Lab联合创始人兼首席执行官

OpenAI的戏剧性事件将在2024年继续上演：Sam Altman解雇后又被重新聘用，这使得新闻周期充斥着各种八卦和热门话题，我怀疑OpenAI的故事将继续占据明年的头条新闻。潜在的催化剂——独特的非营利/营利性混合结构、巨大的成本、人工智能的风险和承诺，并没有改变，随着这个领域的发展速度，这些力量有足够的机会在明年一次又一次地达到高潮。–Paul Barba，InMoment首席科学家

随着“生成式人工智能时代”进入第二年，我们将开始看到企业对人工智能的使用有了更多目的和秩序：生成式人工智能的效应在第二年仍然突出，在OpenAI和Google等企业随之而来的创新的推动下，世界各地的组织将开始研究如何利用人工智能功能来实现其目的，而不仅仅是对“可能的艺术”感到惊讶。各类企业产品中的第一代AI能力，专注于低难度、不复杂的场景，比如各类副驾驶，将不再轻易让每个第一次看到它们的人感到惊讶和眼花缭乱。其结果将是要求人工智能驱动的能力注重使用价值，并用于解决实际问题。–Leonid Belkind，Torq联合创始人兼首席技术官

生成式人工智能的广泛采用将推动对干净数据的需求。生成式人工智能的基础是数据。也就是说，为了实现预期的功能，数据是这项新技术的基础。然而，这些数据也需要干净。无论从何处提取数据、无论使用的是建模还是数据仓库，高质量的数据都至关重要。不良数据可能会导致不良推荐、不准确、偏见等。随着越来越多的组织寻求在其组织中利用生成式人工智能的力量，拥有强大的数据治理策略将变得更加重要。确保数据管理员可以访问和控制这些数据也很关键。–Rex Ahlstrom，Syniti首席技术官兼副总裁

60%的企业员工将接受及时的工程培训。由于人工智能成为未来企业所有员工工作场所生产力的中心，团队将需要继续投资数据/人工智能素养计划，以缩小学习如何设计成功提示的技能差距。不要把这项重要的培训留给研发部门——IT需要为员工制定BYOAI指南和企业培训计划，以有助于其始终如一地、安全地最好地利用生成式AI。–Forrester

更多组织将加入AI操作系统潮流：未来一年，生成式AI操作系统将受到更多关注和投资。人工智能操作系统是人工智能和其他一切事物之间的接口，从利用生成式人工智能工具的工程师和设计师，到通过生成式人工智能训练来模仿人类在物理世界中的行为和动作的机器人系统。由于广泛采用人工智能的风险很高，随着越来越多的企业和公共部门组织采用先进的人工智能技术，将更加强调组织构建操作系统的重要性，这些操作系统可以作为人工智能和其他一切之间的中介。–Ashok Srivastava，Intuit高级副总裁兼首席数据官

从搜索引擎到智能助手：检索增强生成(RAG)将如何在2024年改善大型语言模型响应：随着日历翻到2024年，一个模糊的术语将吸引科技界的注意力。尽管迄今为止尚未得到广泛认可，但检索增强生成(RAG)已开始作为技术人员的变革框架引起轰动。RAG通过从外部源(例如外部知识库)捕获信息来增强大型语言模型(LLM)的功能，通过包含LLM的新数据来提高搜索响应的质量和准确性。可以将RAG视为根据需求个性化LLM，提供相同的LLM智能见解，但这来自数据。这就像从常规的互联网搜索升级到拥有一个个人研究助手，其可以准确地找到需要的内容。金融决策者已经看到了生成人工智能对其组织中其他利益相关者的好处。首席投资官们渴望应用生成式人工智能来缩短“洞察时间”差距，同时过滤更多信息以产生更准确的结果。由于改进RAG的创新，确保对查询进行适当访问的复杂隔离已成为现实。在短期内，我相信RAG将继续克服与LLM的知识差距，提高准确性，并作为包括投资管理在内的多个行业的知识密集型活动的解决方案。此外，RAG可以限制LLM使用哪些数据来处理，这确保响应仅来自RAG数据，而不是源自一般的LLM数据。RAG还可以提供数据来源的引用，以便用户对响应充满信心。为了增强安全性，可以拥有多个RAG数据源，并锁定对某些数据源的访问。这样，只有这些数据源的授权用户才能使用LLM来回答有关敏感数据的问题。展望2024年，高度监管的行业预计将推动新一代人工智能的采用，而RAG能够为其利益相关者捕获更好的信息。–Souvik Das，Clearwater Analytics首席技术官

专用LLM将会蓬勃发展：对数据隐私和安全性的担忧，将促使组织在2024年投资针对其特定需求和数据集量身定制的专用LLM。这些专用LLM将进行微调，以确保更好地遵守监管标准和数据保护要求。这种向以隐私为中心的LLM的转变将使企业能够更好地控制其人工智能应用，培养用户之间的信任，并为从医疗保健到金融等行业的创新和安全的人工智能解决方案打开大门。–Jans Aasman博士，Franz Inc.首席执行官

生成式AI计划将由业务线而不是IT驱动：高管们传统上要求组织采用新工具来实现新的且更好的业务实践，并节省资金，即使用户更愿意坚持使用现有工具。IT支持部署，而实施团队则讨论变更管理程序，为可能不情愿的用户进行广泛的培训，并杜绝继续使用旧工具。然而，确保合规性并快速实现预期效益并非易事。到2024年，GenAI将出现相反的情况。用户对支持GenAI的解决方案的热情是显而易见的，因为许多人已经以各种形式尝试过这些工具。GenAI的用户友好性及其自然语言界面，有助于非技术利益相关者的无缝采用。然而，技术团队面临着固有的挑战，包括幻觉、缺乏可解释性、特定领域的知识限制和成本问题。在某些组织中，在其技术团队跟上进度之前，禁止使用GenAI。检测“影子”使用情况，即个人在短暂的安静后突然变得高效，这给实施挑战增加了额外的复杂性。明年，组织将制定一个流程来评估无数可用选项，并允许企业使用少数能够解决企业环境中GenAI挑战的工具。–Ryan Welsh，Kyndi创始人兼首席执行官

生成式人工智能(GenAI)的成熟：GenAI能力的广泛民主化永远重塑了知识工作和全球劳动力市场的动态，而这些市场已经受到疫情和复苏时间表的影响。整个行业的广泛共识是，虽然现天拥抱GenAI似乎是可选的，但很快就会有选择，要么接受，要么灭绝。预计GenAI将增强业务、技术和安全决策，从而使人们更加关注人工智能治理和道德要求。这种推动的一个例子是最近发布的白宫行政命令，呼吁人工智能供应商在国家安全和公共安全的背景下确保人工智能平台的信任、安全和保障。随着该领域的创新重新定义我们与数字生态系统的关系，对人工智能技能的需求将继续增长。–Igor Volovich，Qmulos副总裁

释放GenAI的潜力需要卓越的数据：数据是释放GenAI潜力的货币。如果没有准确、可靠的数据，组织将无法交付关键结果。在未来的一年里，首席信息官们将需要优先考虑数据质量，以便试点和测试GenAI如何最好地服务和推动整个组织的发展。–Asana，Saket Srivastava首席信息官

AI的下一阶段从Gen.AI到AGI：生成式AI及其方向发生了明显的转变。人们的焦点越来越集中在通用人工智能(AGI)和智能代理的兴起上。对于智能代理来说，在AlOps和MLOps领域有两个部分至关重要。一种是纯粹围绕学习控制和基础设施管理，通过代理确保自动化配置管理和偏差保护。智能代理需要了解如何改进、执行、提供反馈并确定如何修改性能。这种做法适用于人工智能基础设施管理，确保其由代理构建和测试以部署任务。展望不久的将来，工作场所的趋势，尤其是大企业，将与人工智能相关，组织将需要控制代理。如果没有适当的基础设施，组织就无法让人工智能变得自治。对于人工智能从生成式人工智能到通用人工智能的下一阶段，首先需要建立基础设施，而嵌入平台工程对于加速应用的交付非常重要。无论学习系统位于何处(混合云或私有云)，组织都需要配置才能正常工作。–Kapil Tandon，Perforce运营副总裁

定制企业基础模型(FM)的兴起：随着我们迈入2024年，围绕开源与闭源的争论只会变得更加激烈。像Meta的Llama这样的开源LLM正在追赶像GPT-4这样的闭源LLM。这两种模式都在性能和隐私方面有所取舍。企业希望在这两方面都取得成果。最近的更新，如OpenAI Enterprise，允许企业构建适合其解决方案的自定义模型。同样，开源模型允许企业在考虑隐私的情况下构建轻量级自定义模型。这种趋势将继续下去，我们将看到定制的微型语言模型占据中心位置。–Sreekanth Menon，Genpact全球AI/ML服务负责人

“Me Too”AI供应商因生成式AI陷入幻灭的低谷而陷入困境：目前，生成式AI正处于炒作周期的顶峰。明年，当一些组织的人工智能投资无法实现其期望的彻底转型时，将开始幻灭。客户将对那些在人工智能竞赛中迟到的供应商变得更加警惕，这些供应商提供的人工智能功能几乎没有商业价值或引人注目的功能。但是，权衡自己的期望并正确使用生成式人工智能的组织可以避免这种幻灭，并看到人工智能的预期价值。–Mike Finley，AnswerRocket首席技术官

2024年将是企业级开源AI采用的一年。迄今为止，在企业中有意义的、基于生产的采用LLM的例子并不多。例如，围绕企业级弹性、安全性、正常运行时间或可预测性构建的内容并不多。在接下来的一年里，一些企业将利用开源语言模型并使其更加适合生产，从而扭转局面。这将导致构建更多适用于企业级场景的无服务器开源语言模型，从而允许企业以更简单的方式采用该技术。–Quentin Clark,General Catalyst董事总经理

得益于检索增强生成(RAG)，生成式AI将变得更加真实：这项技术将允许工程师将干净的业务数据输入LLM模型，以减少幻觉和事实信息的地面输出。这些干净的业务数据将由传统的数据管道生成，这些管道在组织范围内处理数据提取、清理、规范化和丰富。RAG现在开始出现，随着企业寻求确保生成式AI获得更准确的结果，明年将得到更多采用。–Sean Knapp，Ascend.io首席执行官

迈向AGI——记忆、输入和学习：AGI的追求将集中在三个关键领域：增强LLM的长期记忆、实现持续输入和内部状态以及推进强化学习。像Claude 2和GPT-4 Turbo中增加的上下文长度，以及旨在更好的记忆和持续学习的架构，，都是这一趋势的例子。OpenAI Q*算法的传言也表明了这个方向的重大进展。这些对2024年的预测不仅反映了人工智能和大数据的快速进步，还强调了行业格局的变化，效率、多模态和更深层次的人工智能能力将推动创新和竞争。–Tomer Borenstein，BlastPoint,Inc.联合创始人兼首席技术官

GenAI可能会扼杀创新：当我们拿到第一部智能手机时，很快就会忘记人们的电话号码。当我们开始使用Google地图或Waze时，导航能力也会发生同样的情况。同样，在未来几年，我们将看到人们失去创新技能，因为都变得更加依赖GenAI来帮助生成代码。到2024年，我们必须开始考虑如何保护知识并鼓励创新。-Ori Keren，LinearB联合创始人兼首席执行官

多模式LLM和数据库将开启跨行业人工智能应用的新前沿：2024年最令人兴奋的趋势之一将是多模式LLM的崛起。随着这种出现，对能够存储、管理和允许跨不同数据类型进行高效查询的多模式数据库的需求不断增长。然而，多模态数据集的大小和复杂性对传统数据库提出了挑战，传统数据库通常设计用于存储和查询单一类型的数据，例如文本或图像。另一方面，多模式数据库更加通用和强大。其代表了LLM发展的自然进展，以整合使用文本、图像、音频和视频等多种模式处理和理解信息的不同方面。许多用例和行业将直接受益于多模式方法，包括医疗保健、机器人、电子商务、教育、零售和游戏。多模式数据库将在2024年及以后出现显著增长和投资，因此企业可以继续推动人工智能驱动的应用。–Rahul Pradhan，Couchbase运营与战略副总裁

未完，待续…

若想查看“2024年大数据行业预测”相关篇章，请点击：

2024年大数据行业预测(一)

2024年大数据行业预测(二)