当前位置:AIGC资讯 > AIGC > 正文

数据中心管理者如何为AI和ML的爆炸式增长做好准备?

生成式人工智能和机器学习 (ML) 迅速进入公众意识,使人们对这些有前景的技术的功能产生了新的关注。 大语言模型开发的进步使人工智能技术通过 ChatGPT 等聊天机器人和 DALL-E 3 等图像生成器更容易为公众所接受。但消费者技术只是触及了人工智能潜力的表面——这些技术正被企业用来支持供应链管理、财务分析、营销、搜索、图像生成等。

人工智能行业预计将在未来十年大幅增长,到2030年将达到近2万亿美元。随着技术的不断改进和政府对其实施越来越放心,医疗保健、移动性、能源发电和电力设施等行业将扩大人工智能技术的使用范围,以推动更简化的业务实践并为客户带来更好的结果。

新技术、新数据中心需求

客户可能已经习惯了人工智能和ML应用程序的精简界面,但数据中心管理人员知道必须在幕后处理大量数据才能实现这些体验。这需要处于IT开发前沿的高性能芯片。

实现人工智能的强大芯片需要精确的电源管理,更重要的是需要冷却。高级应用程序散发的热量要求数据中心管理人员适应高热负载,同时保持扩展运营以满足需求的能力。 更复杂的是,增加物理占地面积可能并不总是一种选择——数据中心经理和工程师通常需要解决在同一空间中安装更多计算能力的技术挑战。 此外,来自各个垂直领域的客户始终需要 24/7 的正常运行时间,因此通常需要在不完全重塑或重组数据中心架构的情况下满足人工智能应用程序的需求。

冷却方法必须转变

对于希望支持人工智能基础设施和下一代高性能芯片的装置,传统的冷却方法是不够的。 试图通过高速空气冷却来管理不断增加的热负荷的数据中心将很快变成类似风洞的环境,难以工作且运营成本昂贵。 此外,当空气冷却系统超时工作以维持必要的工作温度时,设施将面临设备故障、计划外停机和高能源成本的风险。 液体冷却为许多数据中心提供了更好的解决方案。

无论是完整的液体冷却解决方案还是混合解决方案,将液体冷却引入数据中心架构都可以在节省能源的同时提高性能。 然而,对于正在设计或改造以适应最高科技应用的数据中心,液体和直接芯片冷却通常是唯一可能的选择。

液体冷却系统可以帮助数据中心增加容量,同时保持空间和能源的高效利用。 它们还可以降低数据中心设施的总拥有成本。 液体冷却系统为实现下一代技术所需的温度参数提供了有效的解决方案,因为液体的传热能力比空气大得多。 这提高了电力使用效率——衡量数据中心使用设施电力进行计算而不是辅助系统的效率。

大规模解决方案

对于无法实现完全液冷架构的数据中心,有多种选择。 数据中心可以冷却容纳人工智能和机器学习应用程序的单个机架或一小组机架。 这意味着他们不需要部署全尺寸的液冷数据大厅。

在实施这些现场解决方案时,数据中心经理需要了解未来的业务计划。 使用专用的冷却解决方案来解决独特的问题是一种可行的方法,但由于成本、能源效率和其他因素,一个问题的解决方案可能无法解决另一个问题。 所有数据中心经理都明白,不同的挑战需要不同的解决方案,而一刀切的方法很少会成功。 这可能意味着规划下一代数据中心采用完全液体冷却,或探索混合液体-空气解决方案,将液体冷却带到机架和芯片级别,同时在风冷基础设施中运行。

此外,许多数据中心正在通过安装带有歧管的服务器机架以及液体冷却所需的额外管道注意事项来为下一代冷却做好准备。 这使得数据中心能够在液体冷却到来时轻松过渡到液体冷却,因为它们的机架级基础设施已经与设施液体兼容。

规划未来和了解 IT 工作负载将带来的最大优势是认识到几乎所有潜在的冷却解决方案都可以组合构建,从而使数据中心管理人员能够根据不断变化的需求来匹配其电源和冷却能力。 可持续增长的关键是支持下一代设备的多种灵活选择。 液体冷却技术有助于提高灵活性。

其他基础设施考虑因素

除了冷却之外,数据中心基础设施的其他部分对于人工智能和机器学习技术的部署也很重要。 例如,智能配电单元 (PDU) 的远程监控和控制功能可以提高能源效率,同时降低停机风险。

泄漏检测也很重要。 在设施层面,液体可以通过多种方式进入数据中心。 设施水管如果保护不当,可能会冻结和爆裂。 备用发电机可能会泄漏燃料。 在某些情况下,液体冷却管路可能会损坏。 泄漏检测技术可帮助数据中心管理人员远程查明泄漏的确切来源并关闭设备以防止损坏。 这种设备的远程监控和控制对于此类紧急情况以及密切关注数据中心的日常效率和平稳运行至关重要。

人工智能、机器学习和高性能计算的激增已经给数据中心管理人员带来了许多新的挑战,但如果有了正确的支持解决方案和系统,它也将带来令人兴奋的机遇。 凭借精心设计的冷却和电源技术,数据中心经理和消费者都可以从这项令人兴奋的技术中受益。

更新时间 2024-03-07