数据中心准备好迎接生成式人工智能了吗?
生成式人工智能 (AI) 能够根据提示生成文本、图像或其他内容,尽管目前企业对它的采用尚处于早期阶段,但随着企业组织找到该技术的更多新用途,预计该技术的采用将迅速增加。
Gartner分析师Frances Karamouzis表示:“生成式人工智能的狂热没有任何减弱的迹象。” “各组织正在争先恐后地确定向生成式人工智能解决方案投入多少资金、哪些产品值得投资、何时开始以及如何减轻这项新兴技术带来的风险。”
据Bloomberg Intelligence预测,未来十年,生成式AI市场将以每年42%的惊人速度增长,从2022年的400 亿美元增长到1.3万亿美元。
生成式人工智能可以通过多种方式帮助IT团队:它可以编写软件代码和网络脚本、提供故障排除和问题解决、自动化流程、提供培训和入职培训、创建文档和知识管理系统以及帮助进行项目管理和规划。
另外,生成式人工智能还可以改变业务的其他部分,包括呼叫中心、客户服务、虚拟助理、数据分析、内容创建、设计和开发以及预测性维护等。
但数据中心基础设施能否应对生成式人工智能产生的不断增长的工作负载?
生成式人工智能对计算需求的影响
毫无疑问,生成式人工智能将成为大多数组织未来数据战略的一部分。如今,网络和IT领导者需要做的是确保他们的IT基础设施以及团队为即将到来的变化做好准备。
当他们构建和部署包含生成式人工智能的应用时,这将如何影响对计算能力和其他资源的需求?
咨询公司毕马威 (KPMG) 咨询部董事总经理布莱恩·刘易斯 (Brian Lewis) 表示:“正如我们今天所知,对数据中心的需求将会增加,并将彻底改变未来数据中心及其相关技术的面貌。”
数据中心运营商DataBank首席执行官Raul Marynek表示,生成式AI应用分两个阶段对计算能力提出了巨大的需求:训练构成生成式AI系统核心的大型语言模型 (LLM),然后使用这些训练有素的LLM来运行应用程序。
“训练大型语言模型硕士需要神经网络形式的密集计算,其中数十亿语言或图像示例被输入神经网络系统并反复细化,直到系统像人类一样‘识别’它们,”Martynek 说。
Marynek表示,神经网络需要极其密集的GPU处理器高性能计算 (HPC) 集群,一次连续运行数月甚至数年。“它们在专用基础设施上运行效率更高,这些基础设施可以位于用于训练的专有数据集附近,”他说。
第二阶段是“推理过程”或使用这些应用程序实际进行查询并返回数据结果。“在这个运营阶段,它需要一个地理上更加分散的基础设施,可以快速扩展并以较低的延迟提供对应用的访问,因为查询信息的用户希望对想象的用例做出快速响应。”
Marynek表示,这将需要在许多地方建立数据中心,而不是目前支持大多数应用程序的集中式公共云模型。他表示,在这个阶段,数据中心的计算能力需求仍将上升,“但相对于第一阶段,这种需求分布在更多的数据中心。”
生成式人工智能推动液体冷却需求
网络和IT领导者需要认识到生成式人工智能对服务器密度的影响,以及它对冷却要求、电力需求、可持续发展计划等的影响。
Tirias Research首席分析师Francis Sideco表示:“这不仅仅是密度,还包括这些服务器在峰值负载下的使用频率和用量的工作周期。” “我们看到NVIDIA、AMD和英特尔等公司的每一代AI芯片都在努力提高性能,同时控制功耗和热量。”
Sideco表示,尽管做出了这些努力,电力预算仍在增加。“随着工作负载的快速增长,尤其是GenAI,我们在某些时候会遇到困难。”
Lewis补充道,服务器密度“不必像刀片技术和虚拟主机那样增加”。“非硅芯片、图形处理单元 (GPU)、量子计算和硬件感知、基于模型的软件开发等技术创新将能够从现有硬件中获得更多收益。”
Lewis表示,业界已经在不同地点试验比空气更高效的创新液体冷却技术以及可持续性,例如微软的Project Natick海底数据中心。
“传统的空气冷却技术,例如使用风扇、管道、通风口和空调系统,不足以满足GPU等高性能计算硬件的冷却需求,”Lewis说。“因此,液体冷却等替代冷却技术正在受到关注。”
Lewis说,液体冷却涉及通过热交换器循环冷却剂,例如水或其他液体,以吸收计算机组件产生的热量。“液体冷却比传统空气冷却更节能,因为液体比空气具有更高的导热性,从而可以实现更好、更高效的热传递。”
Marynek表示,新的数据中心设计需要满足更高的冷却要求和电力需求,这意味着未来的数据中心将不得不依靠新的冷却方法,例如后冷门、芯片水或浸没技术来提供正确的电力组合、冷却和可持续性。
Marynek表示,数据中心运营商已经在液体冷却方面取得了进展。例如,DataBank在其位于亚特兰大的佐治亚理工学院超级计算机设施中使用了QCooling的新型ColdLogik Dx 后门冷却解决方案。
“我们预计门用水量和芯片冷却技术用水量将大幅增加,特别是考虑到未来几代 GPU 将消耗更多电力,”Martynek说道。“由于采用生成式人工智能而对更多计算空间和功率的需求无疑将推动人们寻求更高的功耗和冷却效率。”
Gen AI如何影响电力需求
Marynek表示,数据中心运营商建造自己的变电站可能会变得更加普遍。“由于需求和向可再生能源的过渡而给电网带来的压力,给电力供应带来了更多的不确定性,新的数据中心项目时间表在很大程度上受到公用事业公司的工作量及其处理新设施电力需求的能力的影响, “ 他说。
Marynek 表示,拥有可靠且可扩展的电源将越来越成为数据中心运营商的首要考虑因素,既可以满足HPC集群对电力的需求,又可以绕过公用事业的时间表和限制。
Marynek表示,DataBank正在推出一种名为“通用数据大厅设计”(UDHD) 的新数据中心设计标准,该标准采用平板地板,周边有空气冷却,机柜之间的间距更大,非常适合超大规模云部署,并且可以快速部署。
“这种方法还使我们能够轻松添加活动地板和更近的机柜间距,以适应更传统的企业工作负载,”Martynek说。“而且,我们可以以最小的努力添加下一代冷却技术,如后门热交换器、水冷门配置或直接芯片冷却基础设施,”他说。
未来,数据中心的技术设计“将需要适应更高的计算需求,如快速访问内存、强大的存储/存储区域网络、高性能延迟/中断容忍网络和大数据数据库技术,”刘易斯说。
IT团队需要做好准备
网络和数据中心团队现在应该做好准备。“这些变化发生得太快,任何人都无法做好充分准备,” Sideco说。“不仅仅是网络/数据中心团队,整个生态系统都需要解决所有所需的变化。”
这包括处理增加的工作负载和电力需求的芯片供应商。“它们提供了不同的选项,网络/数据中心团队可以使用这些选项来尝试[解决]不断变化的需求,”Sideco说。“所有这些方面的合作对于跟上需求的步伐非常重要。”
其他人对准备工作更有信心。“我们IT部门始终为下一次颠覆做好准备,”Lewis说。“真正的问题是:企业会投资于需要改变的地方吗?节省成本仍然是数据中心外包的首要任务。然而,企业尚未采用现代IT总拥有成本和价值实现框架来衡量 IT 的响应能力和适应人工智能等技术推动业务发展的速度。”
“为了为人工智能的采用做好准备,数据中心需要确定正确的业务和资本战略,以便他们可以投资必要的基础设施和工具,并培养一支具有适当技能的劳动力队伍,”Martynek 说。“拥有合适的人员来执行战略与制定正确的战略同样重要。”
图片使用申明:原创文章图片源自‘Canva可画’平台免费版权图片素材;引用文章源自引用平台文章中所使用的原图。