2024年大数据行业预测（二）

大数据

数字化转型投资将成为2024年首席信息官议程上的优先事项，特别是在通货膨胀不断上升的情况下，因为这将允许更大的风险管理、降低成本和改善客户体验。此外，根据我们今年看到的趋势，在生成人工智能方面也会有持续的投资。在评估我们最初的业务需求和目标时，同样重要的是我们承诺建立优先考虑负责任使用的指导方针。最后，作为一个行业，我们需要拥抱数据孤岛。我们不能忽略孤岛，反而应该更好地启用，并赋予其提取所需经过审查的数据的能力。—Danielle Conklin,Quality首席信息官

大数据的固有特征，如数量、速度、价值、多样性和准确性，每年都保持不变，而每年出现的不断发展的技术，帮助我们利用领域知识将数据情境化并获得更多见解，加速业务转型。–Ahmed El Adl博士，Sand Technologies高级顾问

大数据洞察不再只是数据科学家的专利：从大数据中提取有意义的业务洞察的能力，在很大程度上已经成为高度专业化的数据科学家的领域。但是，就像在网络安全领域一样，这些专家寥寥无几，而且越来越多的团队对这种有限的资源提出了要求。在接下来的一年里，我们将看到这种指数级的变化。数据结构平台、数据科学和机器语言(DSML)平台正在改变游戏规则，统一和简化对企业数据的访问。这些平台的用户界面更加友好，使更多团队中的更多人能够看到并应对业务面临的威胁或其他挑战。随着人工智能的进步使不良行为者更容易渗透，数据的民主化来得正是时候。随着更多的人关注并能够采取保护措施，企业有机会在威胁之前保持领先地位。–Nicole Bucala，Comcast Technology Solutions副总裁兼总经理

首席数据官或任何数据领导者，需要首先成为变革管理专家，其次才是数据专家，才能在2024年取得成功。创建数据文化与Field of Dreams的“构建，梦就会成真”的方法完全相反，CDO经常发现自己身处一个只有自己梦想的领域。因此，必须将“数据梦想”带到组织的所有领域，以使数据驱动的文化成为现实;生成式人工智能是CDO迄今为止最切实、最可靠的工具。–Niamh O’Brien，Fivetra高级经理

在即将到来的一年里，我们预测对演进数据湖的需求将不断增长，以及GenAI如何帮助组织更容易地访问大数据。企业领导者寻求的不仅仅是一个有组织的存储空间;还将寻找一个智能的交互式平台，促进与数据的有意义的对话，并将其转化为可行的见解。GenAI中的大型语言模型(LLM)，为弥合大数据和决策之间的差距带来了新的机会。在LLM的支持下，智能代理将具有理解和响应自然语言查询的创造性能力，为企业开辟新天地，因为其将允许用户以对话方式处理数据。这种转变推动组织转向组织良好的数据存储库，使用户能够对其数据有有用的理解。–Nirav Patel，Bristlecone首席执行官

2024年是我们停止移动数据并开始使用数据的一年：二十多年来，数据增长速度超过了连接速度，导致了一个指数级问题。指数问题可能会突然变得难以应对，就像一个装满沙粒的罐子，每天都会翻倍。而总有一天，其便会溢出来。数据传输速率无法满足我们的需求，因此催生了诸如Amazon AWS Snowmobile之类的解决方案，这是一个由卡车牵引的45英尺长集装箱，旨在传输EB级数据。我们已经到了无法将所有数据移动到需要分析或使用的地方的地步——从一个数据中心转移动另一个数据中心。边缘，如工厂、医院、自动驾驶汽车，每天都会生成数艾字节的数据，为新的人工智能模型提供动力。然而，人工智能生态系统主要驻留在云端，而将如此巨大的数据量从边缘转移到云端是不可行的。到2024年，我们预计工具将会兴起，让我们能够在不移动数据的情况下处理数据。这些工具将使云应用能够像访问本地数据一样访问边缘数据，或者使数据中心应用能够像访问本地数据一样访问云数据。欢迎来到无处不在的数据时代。–Kiran Bhageshpur，Qumulo首席技术官

云

与云和操作系统无关的高可用性，已成为大多数应用的预期要求：IT团队将寻找跨操作系统和云一致的应用高可用性解决方案，从而降低复杂性并提高成本效率。随着高可用性需求的增加，在本地和云环境中运行应用，以及在Windows和Linux环境中运行应用的企业，都希望通过高可用性解决方案来简化其应用环境，这些解决方案可以在所有环境中提供一致的用户界面，并匹配来自高可用性供应商的云和操作系统技术支持和服务。–Cassius Rhue，SIOS Technology副总裁

组织将继续寻找公共云DBaaS替代方案：我们从用户、客户以及整个市场那得知，都需要公共云DBaaS替代方案。造成这种情况的原因有多种，例如，希望更加独立于供应商、希望优化成本，或者在数据库配置方面获得更大的灵活性。目前，市场为那些愿意做出改变的人提供了有限的选择。与特定提供商的DBaaS不同，开源私有数据库平台市场存在缺口，该平台可以让组织和IT团队更好地控制数据访问、配置灵活性以及与基于云的数据库相关的成本。Kubernetes和Kubernetes Operator的发展，使得这种方法的实施变得更加容易，但是仍然存在多个差距，这使得在生产环境中部署和运行变得更加困难。缩小这些差距，并提供完全开源的DBaaS选项将在2024年实现。–Aleksandra Mitroshkina，Percona高级运营经理

构建从提示开始，并通过云托管：在不久的将来，人工智能驱动的语言模型(LLM)，将不断革新基于服务器的(虚拟化)计算，其中自动化工具的快速部署将推动这一变化。其以一个简单的提示开始，指导创建一个网站。添加额外的指示以指导所构建的网站类型。云托管将成为首要考虑因素，随着在线业务的增长，其具有扩展、负载平衡、安全和处理大量流量的能力。为了提高可靠性、安全性和灵活性，越来越多的用户可能希望切换到多云方法，从而避免被单一提供商锁定。无服务器功能可以按需运行代码，而无需管理基础设施、提供服务器或升级硬件，这将进一步成为开发人员的首选架构。其简化了部署过程，可以更有效地分配资源，并将大大节省精力和时间。随着量子计算的进步，即使进展缓慢，其也将颠覆传统的加密方法。云托管提供商必须通过提供抗量子安全解决方案来适应，以保护敏感数据。不断上涨的能源价格，将推动云托管采用更可持续的做法。更多供应商将致力于使用可再生能源、废水再利用、减少碳足迹，并推广生态友好型云服务。–Mark Neufurth，IONOS首席策略师

数据库/数据仓库/数据湖/数据管理

数据模型将发生结构性转变，从高度结构化的传统数据库中脱离出来。随着越来越多的企业集成人工智能功能，以获得竞争优势并改变业务的实时节奏，历史上的数据管理方法将被淘汰，需要一种新的数据模型来取而代之。–General Catalyst

一种新型的数据仓库将会出现：Snowflake、BigQuery和Redshift将企业数据带到云端。到2024年，我们将看到新一代数据库从这些单一数据仓库中窃取工作负载。这些实时数据仓库将通过提供更快、更有效的实时数据驱动应用来实现这一目标，这些应用为产品的可观察性和分析提供支持。–Tanya Bragin，ClickHouse副总裁

SQL将继续存在：每隔几年，结构化查询语言或SQL就会被认为过时，到2024年，使用LLM人工智能工具生成数据库查询的提案将受到广泛关注。但SQL，是20世纪70年代至今唯一一种仍被广泛使用的编程语言，原因之一是其查询数据的强大功能。可能有些人不喜欢这种语法，甚至觉得其规则有些随意。但几十年来，SQL已经一次又一次证明自己是操作数据的首要工具——它不会很快过时的。–Dave Stokes，Percona技术员

现在比以往任何时候都更需要灵活的全球架构

对全球数据库的需求，将来自于日益增长的数据驻留合规性要求，以及向全球分布的用户群提供低延迟数据的需求。随着越来越多的国家制定数据驻留法规，全球企业将需要评估其数据库，以确保其可以部署在灵活的全球架构中。

《通用数据保护条例》(GDPR)(2018年5月25日颁布)是世界上最严格的数据保护政策。其对企业保护欧盟公民的个人数据和隐私提出了严格要求。如果企业不遵守GDPR，最高可处以1000万欧元的罚款，或最高可达上一财年全球营业额的2%。这些严厉的处罚，以及媒体报道带来的声誉损失，使得企业满足并遵守全球法规变得越来越重要，无论身在何处。拥有灵活的全球架构，有助于企业避免违反这些法规。对全球数据库的需求，可能是日益严格的合规性要求的结果，但拥有灵活的全球架构也可以改善组织的隐私卫生。拥有灵活的全球架构，使企业能够适应不断变化的市场和客户需求，并以低延迟向全球分布的用户数据库提供数据。–Suda Srinivasan，Yugabyte战略与运营副总裁

数据湖的兴起和数据湖供应商的衰落：虽然一些企业可能会选择收集更少的数据，但日益严格的监管要求意味着大多数团队别无选择，只能用更少的数据做更多的事情。随着企业努力寻找更经济高效的方法来存储价值不可预测的数据时，会越来越多地重新考虑数据湖。曾经被认为是非结构化数据的最终归宿，预计到2024年，将加速向数据湖的迁移，这是由于存储成本的增加，以及跨数据湖和对象存储的查询能力的进步，以及数据可以相对容易地路由到数据湖中。由于能够快速且经济高效地搜索大型数据存储，企业将开始使用数据湖作为数据的第一站，而不是最终目的地。这将导致数据量从分析平台和热存储转移到数据湖中。与这种增长形成对比的是，我们预计，随着市场从理论和部署到现实和利用的成熟，那些并非同类最佳的数据湖供应商明年可能会看到增长放缓和整合。对于经历过大幅增长导对于那些经历了超高速增长的行业来说，这种痛苦将会更加严重，而数据湖供应商肯定在这个名单上。–Nick Heudecker，Cribl高级总监

英语将取代SQL成为业务分析师的通用语言：在成功解决其准确性、性能和安全问题之后，我们可以预见语言到SQL技术将得到主流主流采用。此外，在使用这些LLM时，用于语言到SQLl的LLM将移动到数据库中以保护敏感数据，从而解决了围绕数据隐私和安全的主要问题之一。语言到SQL技术的成熟，将为更广泛的受众打开大门，使数据和数据库管理工具的访问民主化，并进一步将自然语言处理集成到日常数据相关任务中。-Nima Negahban，Kinetica首席执行官兼联合创始人

开放格式准备对数据仓库模型进行最后的打击。虽然许多人预计数据湖屋模型会取代仓库，但真正的颠覆者是开放格式和数据堆栈。它们使企业摆脱了供应商锁定，这是一种影响到仓库和仓库架构的约束。–Justin Borgman，Starburst联合创始人兼首席执行官

数据优先的架构方式和数据管理策略：我们即将看到人们保存的数据再次爆炸式增长。到2025年，全球数据创建量预计将增长到超过180 ZB。数据对组织而言，变得越来越有价值，即使不知道如何使用或长期需要它。数据爆炸，将继续推动对高可用性和可扩展解决方案的需求。为了利用这一爆发，组织需要跨部门实现数据民主化，以采用数据优先的方法，以便所有事情都能真正受益于组织的各个方面。–Jeff Heller，Faction,Inc.技术和运营副总裁

2024年是事务性分布式数据库进入主流应用的一年。直到最近，人们还认为分布式数据库只对小众用例有用。然而，随着人工智能和云应用的增长，以及企业在多个时区和地点扩展业务，越来越多的应用将需要可扩展性、弹性、高可用性和数据地理分布。经过行业领先企业验证的云原生分布式数据库，将成为许多此类组织的明显选择。对数据驻留立法征税和合规的需要将进一步推动采用。我们预计，在未来的一年里，像AWS、Google Cloud和Microsoft Azure这样的主要参与者将宣布更多的分布式关系数据库功能，以利用这一趋势。–Karthik Ranganathan，Yugabyte创始人兼首席技术官

数据工程

人工智能技术不会取代开发人员：人工智能正在走向软件开发的最前沿，IT领导者利用人工智能来加快上市时间，并缓解开发人员短缺的问题。虽然基于生成式人工智能的工具可以加速许多常见的开发人员任务，但复杂的任务目前仍属于开发人员的领域。人工智能技术将用于增强开发人员而不是取代，因为某些任务仍然需要熟练的开发人员专业知识。–Jason Beres，Infragistics高级副总裁

人工智能生成的代码将产生对数字免疫系统的需求：到2024年，更多组织将经历重大的数字服务中断，其因是软件代码质量差和监管不足。开发人员将越来越多地使用生成式人工智能驱动的自主代理编写代码，从而使组织面临影响客户和用户体验的意外问题的风险增加。这是因为维护自主代理生成的代码的挑战，类似于维护由离开组织的开发人员创建的代码。其余的团队成员都没有完全了解代码。因此，当代码中出现问题时，没有人能够快速解决。此外，那些尝试使用生成式人工智能来审查和解决自主代理创建的代码中的问题的人，会发现自己遇到了一个递归问题，因为他们仍然缺乏有效管理其所需的基础知识和理解。这些挑战将推动组织开发数字免疫系统，结合软件设计、开发、运营和分析的实践和技术，通过默认确保代码弹性来从内部保护其软件。为了实现这一点，组织将利用预测人工智能在代码或应用出现问题之前自动预测问题，并触发即时、自动响应以保障用户体验。例如，开发团队可以设计具有自我修复功能的应用。如果新版本引入了错误，这些功能可以自动回滚到代码库的最新稳定版本，或者自动配置额外的云资源，以支持计算能力需求的增长。–Bernd Greifeneder，Dynatrace首席技术官兼创始人

数据治理和监管

40%的企业将主动投资人工智能治理以实现合规性。随着欧盟即将通过新的欧盟人工智能法案、美国敦促监管机构生产人工智能和生成人工智能抵押品，以及中国最近的人工智能监管，一些企业将进一步推动人工智能合规性。如果不这样做，就意味着错过合规期限，并且必须改造人工智能治理，从而增加复杂性、成本和时间。为了满足当前和未来的合规要求，企业将投资获取新技术、填补人才缺口并获得所需的第三方支持。–Forrester

数据治理将演变成数据智能：数据丢失预防和保护策略在数据治理的早期占据主导地位。尽管这些工具对于满足政府要求仍然有用，但可能会阻碍数据的有效利用。当数据被紧紧锁定时，管理员无法了解数据是如何使用、移动或访问的，因此无法有效改进其数据存储和实施实践。但这种情况很快会改变。数据治理对于维持合规性仍然至关重要。然而，进化的数据智能能力现已出现，使从业者不仅能够控制数据，而且能够了解数据——这些能力在现代商业世界中是必须的。挖掘元数据以了解其生命周期，将使团队能够更有效地支持其业务需求。这些开明的治理策略，将帮助组织实现数据合规性的共同目标，同时揭示更精准的数据洞察。–Brett Hansen，Semarchy首席执行官

人工智能将被拖入混乱的监管迷宫。世界各地的人工智能监管法规将如雨点般落下，形成一个复杂的监管迷宫，这对于企业而言将具有挑战性。具体点，在美国，人工智能监管可能而且很可能会因州、甚至因城市而异，类似于目前税法因司法管辖区而异。到2024年，当组织致力于解决人工智能监管框架的拼凑问题时，必须问自己：“这里是否应该启用人工智能?如果是，如何启用?”—David Lloyd，Ceridian首席数据官

美国不太可能在2024年颁布与人工智能相关的法律：如果历史有任何迹象的话，立法者需要很长时间才能掌握有关人工智能的实用知识、了解其选择并达成足够的共识制定法律。预测任何复杂政治进程的结果都是困难的，尤其是在总统选举即将到来的情况下。然而，考虑到生成式人工智能在2023年占据了公众的想象力，人们有一种紧迫感，这可能是拜登总统发布“安全、可靠、值得信赖的人工智能”行政命令(EO)的动力。代替联邦法律指导法学硕士和人工智能的使用和发展，《行政命令》将通过利用行政部门的权力和资源，如国土安全、国防、能源、商业等，帮助进一步加强人工智能的安全和保障。政府通过其广泛的购买力对市场的影响，也将被利用来推动安全和安保控制的开发和采用。—Maurice Uenuma，Blancco美洲副总裁兼总经理

可信数据将成为世界上最重要的资产：可信数据在人工智能系统中的关键作用正在成为未来技术的基石。确保人工智能系统生成的信息和数据值得信赖同样重要。在一个越来越接近通用人工智能(AGI)的世界中，知道该信任什么、该信任谁，对于我们学到的一切和自认为知道的一切都至关重要。Forrester强调了这一转变，预测特定领域、注入大型语言模型(LLM)的数字助手将很快协助十分之一的运营任务。当根据特定的业务需求进行定制时，这些LLM有望带来丰厚的投资回报。这一趋势导致组织更加关注查找、理解和管理高质量、可靠的数据，这对于训练针对特定业务需求的人工智能模型至关重要。其结果是，人工智能治理将迅速变得重要。其涉及到的不仅仅是管理数据，还是关于了解信息和模型的整个生命周期。在生成人工智能时代和幻觉带来的挑战中，将数据比作新石油似乎还不够。在当今的商业环境中，仅仅收集和分析大型数据集已不再足够。到2024年及以后，可信数据以及与建立数据信任相关的所有工具，将成为组织的第一大商品。–Satyen Sangani，Alation首席执行官兼联合创始人

由于监管障碍，生成式人工智能的采用将放缓，重点将转向企业数据可用性：在2023年成为众人瞩目的焦点之后，生成式人工智能将在新的一年面临监管阻力，导致企业在进入2024年时更加谨慎。日益严重的安全问题，正促使组织停止大规模采用。尽管试点举措众多，但许多举措可能达不到预期效果，从而削弱了企业的积极性。随着人工智能评估的加剧，供应商将面临更严格的审查。然而，这种审查可以为更加以数据为中心、用户友好的应用环境铺平道路。–Nick Heinzmann，Zip研究主管

数据集成、数据质量

大大小小的企业将优先考虑干净的数据集：随着企业认识到人工智能驱动的数据分析的力量，都会想跟上这一潮流。但如果没有统一的、干净的数据集，也无法走得太远，因为人工智能算法的有效性在很大程度上取决于数据的质量和清洁度。干净的数据集将成为成功实施人工智能的基础，使企业能够获得有价值的见解，并保持竞争力。–Arina Curtis，DataGPT首席执行官兼联合创始人

数据网格、数据结构

随着企业希望跨分布式环境共享数据，数据结构和数据网格将继续成为热门话题。实施一个数据网格架构，让每个业务部门设计自己的数据解决方案，然后只将其连接到所需要的更大规模的组件。–Manish Patel，CData首席运营官

数据可观测性

数据可观测性：数据可观测性已成为一种关键趋势，可以主动确保数据质量，并解决整个数据管道中的异常情况。数据可观测性的5个关键支柱是谱系、质量、新鲜度、数量和模式漂移。在云设置中主动监控这些支柱可以显著节省成本，有可能将成本降低30-40%。其意义在于，高质量的数据对于做出明智的决策至关重要。确保整个环境的适当可观测性，使用户能够访问值得信赖和精心策划的数据资产，以获得有价值的见解。–Arnab Sen，Tredence Inc.数据工程副总裁

可观测性被认为是一个数据问题：尽管每年在可观测性和监控工具上投入数亿美元，但企业对平均时间-分辨率(MTTR)的影响可以忽略不计——事实上，它们正在增加。为什么?现代分布式应用非常复杂，其每天都要更改多次，这导致DevOps团队每天都在生产中看到“未知”的问题。在排除“未知”问题时，DevOps团队必须对数据点进行三角测量，以确定问题可能发生的位置。这就是问题开始的地方，一些数据点位于日志工具、监视工具或APM工具中。最佳做法通常是将每个工具显示的内容截图，并发布在Slack频道中，以便最终决策者能够进行关联。这是不可持续的。为了让可观测性实现其承诺，可观测性数据必须在一个地方，而不是在几个孤岛中。如果数据在一个地方，就更容易导航，找到正在调查的事件的相关背景，并且DevOps团队可以在一个一致的界面中合作。—Jeremy Burton,Observe首席执行官

未完，待续…

若想查看上一篇有关大数据行业预测，请点击：2024年大数据行业预测(一)