(题图 via AnandTech)
Aurora 超算的硬件部分,原本希望 Argonne、Cray 和英特尔能够在 2020 年实现交付。其围绕着英特尔的 Xeon Phi 平台构建,可通过 Intel 的 AVX-512 指令和 10nm Knights Hill 架构来提高吞吐量和加速。
遗憾的是,上述计划是在人工智能(AI)加速革命之前所制订的。英特尔随后在其服务器处理器中添加了 AVX-512 支持,并终结至强融核平台(短命的 Knights Mill)。
基于此,英特尔不得不重新考虑 Aurora 要如何构建,以及如何融入自家的 CPU 和 Xe GPU 。作为今日公告的一部分,英特尔披露了 Aurora 超算的一些基础信息。
虽未透露架构的核心数量、内存类型等信息,但至少可知标准节点将包含双路下一代 CPU 和六路下一代 GPU 硬件,且其通过全新的连接标准进行协作。
计划采用的 Sapphire Rapids CPU,是英特尔继 Ice Lake 至强处理器之后的第二代 10 纳米服务器处理器。今日公告重申了该处理器有望在 2021 年下半年推出,同时 Ice Lake 将在 2020 年末实现量产。
参数方面,每颗 Sapphire Rapids 处理器支持 8 通道内存,且具有足够连接至三路 GPU 的 I/O 。在单个 Aurora 计算节点中,双路 Sapphire Rapids 处理器可协同工作,并支持下一代傲腾 DCPMM 持久性存储。
另有消息人士称,Sapphire Rapids 或许支持 DDR5,但尚未得到英特尔方面的证实。GPU 方面,每个 Aurora 节点将支持六卡协作(英特尔 7nm Ponte Vecchio Xe GPU)。
其基于 Xe 架构的微体系架构打造,采用英特尔大量的关键封装技术,如 Foveros 芯片堆叠、嵌入式多芯片互连桥(EMIB)、以及高带宽现存(HBM)等。
功能方面,英特尔仅声称 PV 将具有矢量矩阵单元和高双精度性能,这可能是 Argonne 进行的研究所必需的。
Aurora 节点中的另一项核心技术,就是采用了全新的 CXL 连接标准。其允许 CPU 和 GPU 直接连接在一起,并在统一的内存空间中工作。
每个 Aurora 节点将具有 8 个 Fabric 端点,从而提供了大量的拓扑连接选项。随着 Cray 部分的构建加入,连接系统将成为其 Slingshot 网络体系结构的一个版本。
同时,该体系结构也将用于其它 2020 年代初期的美国超算项目。英特尔表示,Slingshot 将为 Aurora 提供大约 200 个机架的连接,共有 10 PB 内存和 230 PB 的存储。
综上所述,可简单估计 Aurora 超算有如下特点:
支持 200 个机架协同工作;
每个机架可能都采用标准的 42U 配置;
每个 Aurora 节点都是一个标准的 2U 配置;
系统或总共有 200 个机架;
每个机架支持 6U 和联网特性;
其中 1/3 可用于存储和其它系统;
四舍五入可得 2400 个 Aurora 超算节点(2394)。
若真如此,整个 Aurora 超算系统将只采用 5000 颗英特尔 Sapphire Rapids CPU 和 15000 个 Ponte Vecchio GPU 。
假设将 ExaFLOP 均摊到 15000 个子单元商,则每个 GPU 的平均算力为 66.6 TeraFLOP 。不过当前的 GPU,其 FP32 性能仅在 14 TeraFlops 左右。
若英特尔能够将 HPC 的单 GPU 性能提升约 5 倍,这样的提升也是相当惊人的(假设不考虑功耗限制的话)。
本文素材来自互联网