编辑 | 宋慧
出品 | CSDN 云计算
AIGC 从年初开始持续爆火,国内各种大模型纷纷涌现,其中模型参数轻松突破千亿数量级。模型中数据的形态、部署也是多种多样的,庞大数据量背后的管理和成本不容小觑。
混合数据厂商肯睿 Cloudera 今年相继发布了系列的数据产品与方案,就是希望为所有 AI 与大模型的用户降低背后的数据成本。详细来说,Cloudera 建议用户重点去提高对数据的可观测性设计,并优化混合云的部署成本。另外对于 AI 场景的数据需求,用户可以重点关注湖仓一体的混合数据部署方式。
提升数据可观测性,优化混合云成本
经过十多年的 IT 改造和云化升级,采用混合云部署的模式正在逐渐普及和成为企业的重要选择。对于混合云场景,Cloudera 总结了三方面需要数据相关的技术团队去重点关注的工作。首先,在由容器、调度器、服务等复杂系统的混合云场景里,数据平台的可控和稳定性是第一重要的。另外,目前的管理系统对于云消耗情况和效率的可见性仍有限,所以常常会导致浪费和超支,因此技术团队需要重视对于数据底层的资源管理与控制工作。最后,对于数据系统运维来说,故障排除麻烦,提供支持的人员需要频繁地来回奔波,运维人员与平台系统的体验也是运维效率的重要保证。
因此,Cloudera 针对以上的重点技术问题,设计了可以覆盖整个 CDP 平台产品的一站式可观测性应用解决方案 Cloudera Observability。方案从财务视角、管理监控、性能优化、自动化分析等等方面去进行设计。具体功能与设计如下:
1、财务治理
通过成本管理避免超出预算 规划前的能力预测2、主动系统监控
关于基础设施、服务、工作负载和用户的历史分析报告 当前系统监控和洞察3、工作负载优化
性能调校建议 调节规则主动失效和刷新4、服务健康监控
通过连续服务监控确定瓶颈 事件和日志与服务的关联性5、自助式分析
覆盖所有能力的自动化操作 完整的影响分析和可见性6、更快的问题解决速度
随时可用的 RCA 和处方更快的支持速度据介绍,目前 Cloudera Observability 已经支持了 Hive、Impala 和 Spark 等 CDP 的几个主要的数据引擎,并以 Cloudera 托管的 SaaS 形式提供服务,接下来 Cloudera Observability 还将推出可本地部署的版本。根据测算,采用 Cloudera Observability 之后,数据系统的集群利用率可提升 30%以上,SLA 和 SLO 遵守率可提高 43%,RCA 和故障排除速度加快 50 倍,从数据的效果可以看到可观测性技术对于基础设施的投资回报率、收入、运营开支都有非常显著的优化。
企业大模型的数据困境,Cloudera 湖仓一体给出新答案
除了对于数据的可观测技术,对于 AI 与大模型场景下的数据应用,数据系统也面临了与以往数据分析所不同的全新技术挑战,例如企业内部大模型训练所需数据的来源、准确性、安全性等等。
以大语言模型为例,对于 Spark、Hive 等系统下数据结构与性能等不同需求
详细来说:
1、数据背景信息缺失
未在企业自身的数据上训练 企业客户背景信息至关重要2、数据的关联性与准确性
错误的响应会带来严重的后果3、数据的可信与安全
针对意图而不是功能的新验证理念4、数据风险与合规
授权、溯源、治理审计追踪Cloudera 已经积累了针对数据编织、湖仓一体、数据网格和未来数据生态系统架构要求的混合数据平台,基于混合云与多云部署,提供数据编制编排后,统一提供 AI、BI、机器学习等数据分析与应用产品。
今年 4 月 Cloudera 客户大会上 Cloudera 也重点强调了 Cloudera 混合数据平台 CDP 对数据科学与 AI、机器学习的支持。例如 Cloudera Machine Learning(CML)可以为机器学习生命周期提供端到端的工作流程支持,以及覆盖从数据专家到数据分析师等各类用户的协作式、一体化商业智能与增强功能。
针对企业训练和使用大模型对于数据的需求,Cloudera 也总结和分享了对应的产品与技术路线。目前已经分别从安全可信、混合数据应用、可扩展的三个方面提供技术能力。
具体来说:
1、可信、安全和治理。Cloudera SDX 提供在任何地点的企业数据上创建可信 AI 所需的安全、治理和溯源。
2、混合数据应用,利用企业已有数据打造企业 AI 应用。Cloudera 赋能各个公有云和私有云上的企业数据,通过与企业业务相关的背景信息增强企业 AI 技术能力。
3、增加数据可扩展性,为 ML/AI 应用提供数据基础。Cloudera 在云数据管理和分析领域所管理的数据超过 2500 万 TB,与超大规模云服务商不相上下。
数据的重要性,在 AI 时代将愈加突显。开发者对于数据的存储、管理、分析、应用将是重要的工作。Cloudera 对于数据系统的设计思路与建议,值得开发者重点关注,CSDN 将持续报道数据技术的进展。