域名频道资讯站
我们一直在努力制造惊吓

展望2021:英特尔或为Aurora超算提供双路CPU+六GPU节点

展望2021:英特尔或为Aurora超算提供双路CPU+六GPU节点

(题图 via AnandTech)

Aurora 超算的硬件部分,原本希望 Argonne、Cray 和英特尔能够在 2020 年实现交付。其围绕着英特尔的 Xeon Phi 平台构建,可通过 Intel 的 AVX-512 指令和 10nm Knights Hill 架构来提高吞吐量和加速。

遗憾的是,上述计划是在人工智能(AI)加速革命之前所制订的。英特尔随后在其服务器处理器中添加了 AVX-512 支持,并终结至强融核平台(短命的 Knights Mill)。

基于此,英特尔不得不重新考虑 Aurora 要如何构建,以及如何融入自家的 CPU 和 Xe GPU 。作为今日公告的一部分,英特尔披露了 Aurora 超算的一些基础信息。

展望2021:英特尔或为Aurora超算提供双路CPU+六GPU节点

虽未透露架构的核心数量、内存类型等信息,但至少可知标准节点将包含双路下一代 CPU 和六路下一代 GPU 硬件,且其通过全新的连接标准进行协作。

计划采用的 Sapphire Rapids CPU,是英特尔继 Ice Lake 至强处理器之后的第二代 10 纳米服务器处理器。今日公告重申了该处理器有望在 2021 年下半年推出,同时 Ice Lake 将在 2020 年末实现量产。

参数方面,每颗 Sapphire Rapids 处理器支持 8 通道内存,且具有足够连接至三路 GPU 的 I/O 。在单个 Aurora 计算节点中,双路 Sapphire Rapids 处理器可协同工作,并支持下一代傲腾 DCPMM 持久性存储。

展望2021:英特尔或为Aurora超算提供双路CPU+六GPU节点

另有消息人士称,Sapphire Rapids 或许支持 DDR5,但尚未得到英特尔方面的证实。GPU 方面,每个 Aurora 节点将支持六卡协作(英特尔 7nm Ponte Vecchio Xe GPU)。

其基于 Xe 架构的微体系架构打造,采用英特尔大量的关键封装技术,如 Foveros 芯片堆叠、嵌入式多芯片互连桥(EMIB)、以及高带宽现存(HBM)等。

功能方面,英特尔仅声称 PV 将具有矢量矩阵单元和高双精度性能,这可能是 Argonne 进行的研究所必需的。

展望2021:英特尔或为Aurora超算提供双路CPU+六GPU节点

Aurora 节点中的另一项核心技术,就是采用了全新的 CXL 连接标准。其允许 CPU 和 GPU 直接连接在一起,并在统一的内存空间中工作。

每个 Aurora 节点将具有 8 个 Fabric 端点,从而提供了大量的拓扑连接选项。随着 Cray 部分的构建加入,连接系统将成为其 Slingshot 网络体系结构的一个版本。

同时,该体系结构也将用于其它 2020 年代初期的美国超算项目。英特尔表示,Slingshot 将为 Aurora 提供大约 200 个机架的连接,共有 10 PB 内存和 230 PB 的存储。

展望2021:英特尔或为Aurora超算提供双路CPU+六GPU节点

综上所述,可简单估计 Aurora 超算有如下特点:

支持 200 个机架协同工作;

每个机架可能都采用标准的 42U 配置;

每个 Aurora 节点都是一个标准的 2U 配置;

系统或总共有 200 个机架;

每个机架支持 6U 和联网特性;

其中 1/3 可用于存储和其它系统;

四舍五入可得 2400 个 Aurora 超算节点(2394)。

若真如此,整个 Aurora 超算系统将只采用 5000 颗英特尔 Sapphire Rapids CPU 和 15000 个 Ponte Vecchio GPU 。

假设将 ExaFLOP 均摊到 15000 个子单元商,则每个 GPU 的平均算力为 66.6 TeraFLOP 。不过当前的 GPU,其 FP32 性能仅在 14 TeraFlops 左右。

若英特尔能够将 HPC 的单 GPU 性能提升约 5 倍,这样的提升也是相当惊人的(假设不考虑功耗限制的话)。

本文素材来自互联网

赞(0)
分享到: 更多 (0)

中国专业的网站域名及网站空间提供商

买域名买空间

登录

注册