AI的进一步发展，或将改变超级计算机排名格局？

2023-05-26来源：

关注最新一期全球超级计算机榜单的意义在于未来，而非过去。整整六个月以来，榜单位次基本没有多大变化，而即将于本月公布的最新榜单可能最终打破这死水微澜的半年。驱动这波变化的，当然要归功于云系统和AI系统的涌入。两股新势力正令超算排名逐渐偏离其最初目标，在高性能计算（HPC）模拟之外开辟出新的算力厮杀战场。

但这种转变又在情理之中，甚至可以说是不可避免。毕竟传统意义上的“高性能计算”就是用Linpack基准测试核查分布式系统的理论算力，但这种简单粗暴的方式显然不足以确切反映各国超算系统在商业、学术和模拟/建模任务当中表现出的相对性能。

之前我们已经多次谈到，超算500强榜单上经常会有日常处理电信、Web和托管工作负载的高性能机器实例。而随着商业AI系统的兴起，构建这些机器的供应商以及负责托管的企业/国家自然也深为自己掌握的巨量算力而自豪。表面这种自豪的重要方式，就是在机器上运行高性能Linpack基准测试（HPL）。但现实情况是，这些机器很少、甚至几乎不会运行64位浮点数学运算，就连传统意义上的HPC负载都接触不多。全球范围内存在着成千上万的超算系统，但榜单只有区区500个名额。HPC社区当然希望在榜单中多引入新选手，借此展示整个生态的蓬勃活力。

当然，从最广泛的意义上对全球超算系统进行排名也无可厚非。但我们认为AI社区还需要一些门槛更低的选项，比如说多测HPL，这可比AI硬件厂商最喜欢的MLPerf基准测试简单得多。另外，还应当对基准测试结果做更加严格的审核，以证明机器确实在运行HPC或AI负载，而不只是将超大规模服务商、云供应商和电信公司的集群分割出足够大的一块，然后粗暴占据Top500榜单中高达三分之一的名额。（HPE和联想，感谢你们对HPC做出的卓越贡献，但实际情况就是如此。当然，IBM在2000年左右也有过类似的「霸榜」行为，这里并不是要指责哪家厂商。）

带着这样的思考，让我们一起来看2023年6月的最新一轮Top500超算榜单。虽然很多人确定中国已经建立起了自己的百亿亿级系统，但其在本次榜单中仍然不见踪影；Frontier超级计算机的HPL持续性能为1.19百亿亿次（exaflops），还是目前全球唯一得到认证的百亿亿级系统。同样由美国能源部出资建设的劳伦斯利弗莫尔国家实验室El Capitan系统和阿贡国家实验室的Aurora系统，也将在今年晚些时候加入百亿亿级俱乐部。不出意外的话，二者的亮相首秀将是2023年11月的下一次Top500超算排名。

超算系统的性能提升恐怕已经跟不上摩尔定律的预测了。

位列榜首的Frontier系统来自橡树岭国家实验室，是一套由4000多个节点组成的集群，采用定制版“Trento”AMD Epyc CPU和4个AMD“Aldebaran”Instinct MI250X GPU加速器，通过HPE的Slingshot 11以太网实现互连。第二名则是采用富士通A64FX高度矢量化Arm CPU和Tofu D互连系统的“Fugaku”超级计算机。二者的64位浮点运算理论峰值性能分别为1.68百亿亿次和537.2千万亿次（petaflops）。Fukago比Frontier年长两岁、发热量更大，但64位运算的性能只有后者的三分之一强，耗能更高导致其单位计算成本相对更差。作为Fugaku及其身前K超级计算机的所在地，日本RIKEN实验室掌握着相当全面的超算系统阵容，在Graph500测试和HPCG等高强度工作负载上都把持着最佳能效的桂冠。

芬兰科学计算中心（CSC Finland）的Lumi系统在本次榜单上位列第三，依靠的就是去年11月升级后获得的309.1千万亿次持续性能。与Frontier一样，Lumi系统也是基于HPE架构的Cray EX235a超算，同门师兄弟还有即将亮相的夺冠大热El Capitan和Aurora。El Capitan将采用Instinct MI300-A的“Antares”混合CPU-GPU计算引擎，该引擎在单一封装内塞进了2个“Genoa”Epyc小芯片外加6个GPU小芯片。Aurora则拥有2个英特尔“Sapphire Rapids”至强jSP节点，各节点交叉耦合至6个“Ponte Vecchio”Max GPU加速器，CPU与GPU之间使用Xe互连进行对接，再辅以Slingshot 11连接节点。从目前的情况看，HPE显然特别擅长在准百亿亿级和百亿亿级超算中使用Slingshot 11连通各CPU和GPU节点。根据之前的推测，Lumi系统的GPU部分算力应该扩展到了550千万亿次的峰值，但目前还不清楚论断是否准确。芬兰科学计算中心只提到，Lumi的GPU部分在Linpack上的持续峰值性能可达到375千万亿次。

来自意大利Cineca超算中心的Leonardo系统由Atos（现更名为Eviden）负责建造，并于去年11月首次上榜。虽然通过升级将设备规模提升了25%，但Leonardo目前在Top500榜单中的排名仍在第四。升级后Leonardo的峰值性能提升19.1%来到304.5千万亿次，而持续Linpack性能则提升36.6%达到238.7千万亿次。

Top500的前十名没有任何变化，我们也将继续期待看到更多新的系统和技术发展趋势。

趋势和花絮

下面咱们聊聊云计算阵营。微软Azure提供7个永久（可能是虚拟）集群，负责运行真正的客户HPC工作负载。这些集群也进入了本轮Top500榜单。这一点非常重要，其中排名第11的Explorer-WUS3系统由48核Epyc 7V12处理器和AMD MI250X GPU组成，服务器节点采用英伟达100 Gb/秒HDR InfiniBand互连，其峰值Linpack性能接近87千万亿次，持续性能则接近54千万亿次。由此可知，其计算效率为62%，跟我们在GPU加速计算系统中常见的65%到70%效率基本持平。而且很明显，Azure云实例还要配合Hyper-V管理程序运行，所以必然额外消耗一点性能（一切云平台上的任何管理程序都必然额外消耗性能）。Voyager-EUS2集群自2021年夏季起正式运行，并在当年11月的榜单中位列第十。但其持续30千万亿次的性能很快跌至榜单第16位。微软的四个Pioneer集群继续以16.6千万亿次的峰值性能位列40多名；而采用英特尔至强SP CPU加英伟达V100 GPU的HyperCluster设备最初于2019年11月进入榜单，目前仍以2.67千万亿次的持续Linpack峰值性能位列榜单第289位。

微软的所有HPC集群目前在64位基准测试中的峰值性能在229千万亿次，持续运行性能则为153千万亿次，跟橡树岭的“Summit”超级计算机处于同一水平。我们很好奇这7个多云HPC集群到底帮微软赚了多少钱，目前有没有收回成本。但唯一可以肯定的，就是全球还没有哪个国家实验室的集群能真正创造收入，即使把科研产出算上也不行。如果再加上俄罗斯Yandex的两个集群和美国亚马逊云科技Descartes Labs的一个集群，那么6月Top500榜单中全部10个云实例共对应294.1千万亿次峰值性能，在全榜所有超算64位浮点算力总值7.83百亿亿次中占比3.8%。

虽然看起来比例不高，但请注意：这份Top500榜单只采集主动提交上来的超算系统信息。其他一切已知和未知的HPC设备，无论属不属于云基础设施，都不会被计入进来。这也是我们长久以来最为不满的点：我们需要一套完整的数据库，包含对所了解的一切超算设备及其测试性能的全面记录。如若不然，这样的榜单反而可能扭曲我们对于现实的认知。（请千万别误会，Top500超算榜首提供的数据也很有价值，包括其中的HPCG、Graph500、Green500及其他测试基准。）

我们只是认为HPC集群的云实例其实更多，其中相当一部分属于云内部设施，且生命周期在三到四年之间。

说到这里，我还想再提点意见。Top500榜单会告诉我们一台机器排在多少名，每隔半年其成绩有何变化，但却不会直接显示各位选手在榜单上待了多久。对于传统超算系统来说，这倒不是个大问题，查询一下非常方便。但云计算集群就不同了，我们很想知道它们会不会被更快淘汰，至少跟传统超算相比在生命周期上有何异同。最近一段时间，各大云服务商正在将基础设施的使用寿命由三年延长到四年、五年甚至是六年——我们强烈怀疑超级计算机的工作周期也在延长，不再一味追求每年定期推出的最新、最强计算引擎。

下面，咱们聊聊在HPC领域重新崛起的AMD和他们的CPU/GPU成果。

在2023年6月榜单上的184位GPU加速选手中，有11位搭载了AMD GPU，167位配备英伟达GPU，另外6位配备其他加速器（例如英特尔Knights协处理器）。AMD在GPU加速系统中的份额为5.9%，英伟达则为90.8%，看来天秤已经彻底倾斜了。但如果具体审视系统中GPU流式多处理器的数量，则AMD的份额为30.3%，英伟达为53.2%——这是因为AMD重回GPU赛道的时间还不长，但目前已经在184位GPU加速选手中占得总体Linpack持续性能份额的49.2%，而英伟达GPU的总和性能反而只有48.6%。

短短几年间恢复到这样的水准无疑令人惊叹，也引得英伟达用Grace-Hopper和Grace-Grace计算引擎施以反击——前者为CPU-GPU混合引擎，后者则是双CPU密耦合封装。

现在我们再看看Top500榜单中的CPU们。以下图表按时间顺序记录了每一代CPU和各家厂商在榜单中的核心数量：

首先需要注意的是，Top500榜单中各超算系统的总核心数量已接近4000万，而且过去两年间一直在迅猛增加。目前AMD的核心份额约在三分之一，而且自2020年来保持着稳步提升。但如果深入研究数据并计算各代CPU核心的性能占比，则AMD在目前这份榜单中的比例仅为24.2%，核心数量占比为35.4%，而各核心带来的持续Linpack性能份额为51.1%。这些数据均来自Top500数据库的子列表生成器，但似乎同时计入了CPU和GPU核心的数量和对应性能。不太清楚具体要怎么把纯CPU系统剥离出来单独比较。

在我们看来，如果AMD能在Top500超算榜单的CPU数量上占比超过三分之一，那么这些CPU所对应的性能很可能是榜单总量的40%或者更高一点。自2000年代中后期Opteron达到顶峰以来，AMD在HPC领域从未取得过此等成功。而这一次，AMD不仅要在CPU市场上正面对抗英特尔，还打算在GPU领域跟英伟达一较高下。

最后，Top500超算榜单的守门性能水平为Linpack 1.87千万亿次；要冲击前100（也就是真正具备HPC承载能力的高容量超算的正式门槛）则为6.32千万亿次。

Top500榜单目前的总算力为5.24百亿亿次，比去年11月增长了7.8%，较上年同期的4.4百亿亿次增长了19.1%。

　　图片使用申明：原创文章图片源自‘Canva可画’平台免费版权图片素材；引用文章源自引用平台文章中所使用的原图。

AI的进一步发展，或将改变超级计算机排名格局？

相关文章