人工智能如何改变数据中心设计
随着2023年至2026年间全球人工智能系统支出将翻一番,数据中心容量显然将迅速增加以满足需求。
然而,令人惊讶的是,过去一年许多数据中心运营商踩下了新项目的刹车并放缓了投资,2022-23 年间伦敦的空置容量下降了 6.3%。
这种反直觉趋势背后的原因是什么? 为了解释这一点,我们需要了解有关人工智能计算和支持它的基础设施的一些问题。
人工智能如何改变数据中心基础设施
数据中心历来都是围绕 CPU 供电的机架构建的,以处理传统的计算工作负载。 然而,AI 计算需要 GPU 驱动的机架,与同等 CPU 容量相比,它会消耗更多电量、散发更多热量并占用更多空间。
实际上,这意味着人工智能计算能力通常需要更多的电源连接或替代冷却系统。
由于这是嵌入式基础设施,因此它被构建在数据中心综合体的结构中,即使在经济上并非完全不可能,更换成本也往往极高。
在实践中,运营商必须致力于在新数据中心中有多少空间专用于人工智能与传统计算之间进行“划分”。
如果犯了这个错误并过度致力于人工智能,可能会让数据中心运营商面临永久未充分利用和无利可图的能力。
由于人工智能市场还处于起步阶段,这个问题更加严重,Gartner 声称目前正处于炒作周期中预期过高的顶峰。 因此,许多运营商选择在设计阶段犹豫不决,而不是过早地承诺人工智能计算在新数据中心项目中的比例。
在设计阶段采取整体方法
然而,运营商敏锐地意识到,他们只能冒险推迟投资,否则就会失去市场份额和竞争优势。 但考虑到数据中心基础设施的许多基本原理正在被实时重写,这是一项艰巨的任务。
为了平衡先行者的需求和抵消风险,运营商需要将其数据中心设计得在人工智能计算时代具有最大的效率和弹性。 这需要一种全新的、整体的设计方法。
1、让更多利益相关者参与
无论运营商决定如何区分人工智能和传统计算,具有人工智能计算能力的数据中心站点都将比传统设施复杂得多。 更高的复杂性通常意味着更多的故障点,特别是因为人工智能计算比传统计算有更多的需求。
因此,为了保证站点生命周期内的正常运行时间并降低出现代价高昂的问题的风险,团队需要在数据中心的规划阶段更加彻底。
特别是,设计阶段应在项目开始时寻求更多团队和专业知识的意见。 除了寻求电源和冷却方面的专业知识外,设计人员还应该尽早与运营、布线和安全团队合作,以了解潜在的瓶颈或故障来源
2、将人工智能融入数据中心运营
由于运营商现在在现场拥有人工智能计算,他们应该利用自己的能力利用人工智能来提高运营效率。 人工智能在数据中心的采用由来已久,该技术能够以极高的精度和质量执行工作流程。 例如,人工智能可以帮助:
温湿度监测
安全系统操作
用电监控和分配
硬件故障检测和预测性维护
通过在数据中心生命周期的每个阶段主动使用该技术,运营商可以显着提高运营效率和稳健性。 人工智能非常适合帮助解决采用这些下一代数据中心新颖而复杂的布局时遇到的新挑战,例如通过故障检测和预测性维护。
3、避免虚假经济
人工智能在高峰时段会给数据中心带来更大的负载,例如在训练运行期间或在生产中运行企业级模型时。 在此期间,人工智能计算通常会大大超出对功耗、冷却需求和数据吞吐量的传统预期。
从最基本的层面来看,这意味着数据中心的底层材料承受更大的压力。 如果这些底层材料或组件质量不高,这意味着它们更容易出现故障。 由于人工智能计算意味着站点中组件和连接数量的急剧增加,这意味着在传统站点中运行良好的更便宜和质量较低的材料可能会导致运行人工智能计算的数据中心停止运行。
为此,运营商应避免通过购买劣质材料(例如不合格的电缆)来节省资金。 这样做会带来虚假经济的风险,因为这些材料更容易出现故障,并且需要更频繁地更换。 但是,最有问题的是,不合格材料和组件的故障通常会导致工厂停机或减速,从而影响其盈利能力。
解决基础设施难题
虽然人工智能计算的基础设施要求可能是运营商拖延投资的主要原因,但从长远来看,情况不会如此。
随着市场不确定性的增加,企业将会在数据中心传统计算和人工智能计算之间的分裂方面向他们的“金发地带”靠拢。
当这种情况发生时,公司需要确保在学习和成熟的过程中,他们在网站运营中拥有一切可能的优势。
这意味着从一开始就进行整体设计,利用人工智能本身来发现其站点的新效率,并投资于能够满足人工智能计算更大需求的优质材料。
图片使用申明:原创文章图片源自‘Canva可画’平台免费版权图片素材;引用文章源自引用平台文章中所使用的原图。