2022 年 6 月,Frontier 超级计算机登上了全球最快超级计算机系统榜单的榜首,这款超级计算机的峰值性能高达 1.1 ExaFlop,而功耗仅为 21.1 MW,这标志着百亿亿次级计算时代已经到来。最新的 HPC 性能基准测试表明,高性能计算 (HPC) 数据中心的吞吐量在很大程度上取决于网络结构。在 Frontier 集群中,PCIe 4.0 物理层通过 12.8 Tbps 交换机连接了近 900 万个 CPU/GPU 内核,在 145 公里的网络中提供 100GbE 带宽。下一代 HPC 数据中心预计将使用 PCIe 5.0/6.0 以及 56G/112G 以太网 PHY 实现具有互连升级功能的 200G/400G/800G 网络。

本文从距离、架构、功耗和通道类型这几个角度概述了 112G 以太网 PHY 提供的各种实现方案。

互连结构、端口和 SerDes

随着用于百亿亿次级计算的 HPC 数据中心的部署,互连结构、端口和 SerDes IP 如今能够支持更高的速度。图 1 是 HPC 数据中心双机架网络的图示,其中的架顶 (ToR) 交换机通过光链路连接机架。在机架内,计算资源通过 PCIe/CXL 和数据处理单元连接,该单元本质上是具有处理能力的网络接口卡,通过直连铜缆 (DAC) 或有源铜缆 (ACC) 将 ToR 交换机连接到这些内核。

图 1:HPC 作为计算资源网络

表 1 总结了 HPC 数据中心当前和未来的互连实现方案。采用 56G PHY 的四通道 (x4) 或八通道 (x8) 外形尺寸的早期部署带来了 200G/400G 端口。随着 SerDes 从 56G 升级到 112G 以太网 PHY,新的机架单元设计预计将开始保留 x4/x8 端口这种选择 – 使端口带宽翻倍,达到 400G/800G。

 

运行要求

早期部署

主流部署

CPU 加速器结构

PCIe 4.0

PCIe 5.0 /CXL 2.0

PCIe 6.0 /CXL 3.0

系统互连

100GbE,带四通道 25G PHY

  • 200G,带四通道 56G PHY
  • 400G,带八通道 56G PHY
  • 400G,带四通道 112G PHY

 

  • 400G,带四通道 112G PHY
  • 800G,带八通道 112G PHY
  • 800G,带四通道 224G PHY

 

ToR 交换机

12.8T

25.6T

51.2T

 

表 1:HPC 网络组件和互连的比较

重定时器、超短距离 (VSR) PHY 和长距离 (LR) PHY

采用 QSFP-DD 外形尺寸的新型 400G/800G 光模块设计,其目的在于符合 MSA(多源协议)标准所要求的颇具挑战性的 14W 功耗预算。要实现这个目标,需要对光学 DSP SoC 使用经过功耗优化的 VSR 电气接口。112G-VSR 规范定义了适用于芯片到模块接口的 15dB 通道,而 LR PHY 则要求使用具有两个连接器的 28dB 通道。

与 LR 规范相比,VSR 通道的较低通道损耗目标使 SerDes 设计人员能够通过专用架构提供更好的总体功耗效率。

数据路径中的每次额外串行/解串不仅会增加数据传输的功耗,而且还需要额外功耗来进行系统冷却。这迫使系统设计人员通过部署具有 112G VSR/LR PHY 的模块来探索使用和不使用重定时器的实现方案。图 2 显示了一种具有代表性的实现方式,其中通过部署与 VSR 光模块内嵌的重定时器来启用更长的交换机到端口链路。或者,尽管 LR PHY 的功耗高于 VSR PHY,但 112G LR PHY 具有额外的数字信号处理均衡能力,可能无需使用重定时器。

图 2:使用重定时器和 LR/VSR PHY 的实现选择

订阅 新思科技 IP 技术公告

包括深度技术文章、白皮书、视频、即将举行的网络研讨会、产品公告等等。

电光接口的演变

ToR 交换机之间连接始终通过光链路实现,而机架内链路则通过可插拔模块和 DAC、ACC 实现。随着 112G 以太网 PHY 的部署,业界开始探索如何使用多个电气接口,以节省 SerDes、光学引擎和重定时器的总体功耗。表 2 总结了下一代电光链路的新兴实现方案。

表 2:HPC 数据中心中的下一代电光链路

  • 共封装光学器件:得益于硅光子和封装技术的进步,可以使用 25G 和 100G λ 光学晶粒来实现共封装光学器件。串行和并行接口:OIF 的串行 112G-XSR 规范和 UCIe 最新推出的晶粒间互连标准,提供了电气晶粒与光学晶粒之间的高效电气互连方案。
  • 近封装光学器件:由于光学组件的性能在很大程度上取决于工作温度,且一些实施者担心共封装光学器件 (CPO) 的可维护性,因此,实施者开始考虑使用近封装光学器件 (NPO) 的替代实现方法,以缓解集成方面的挑战。
  • 带线性电气接口的可插拔光学器件:对降低总体功耗的追求促使 OIF 起草了适用于 C2M 通道的 112G 线性标准。在这种实现方法中,112G 线性 PHY 中存在的 DSP 会补偿光损伤。

适用于机架内连接的 LR 和 LR Max

CEI-112G-LR-PAM4 规定 112 Gb/s 芯片间 PAM4 电气接口,以使包括两个连接器在内的奈奎斯特频率损耗小于 28 dB。112G LR SerDes 有望与所有这些通道配合使用,并提供 1e-4 的 PHY 级 BER。协议层的前向纠错 (FEC) 有望将 BER 从 1e-4 提高到 1e-12 或 1e-15。

随着系统部署的进步,实施者开始考虑 112G SerDes 的 LR Max 方案,以增加系统设计的裕量。表 3 显示了 LR 通道中每个组件的典型值和最大值。

表 3:112G SerDes LR 和 LR Max 的新兴要求

使用 Megatron 材料、其中两个线卡都有 9 英寸迹线的正交通道可被视为典型的实施方式,然而,迹线长度、封装损耗和 PCB 材料选择会改变通道的损耗、插入损耗偏差 (ILD) 和反射。图 3 显示了各种通道的损耗情况。

图 3:HPC LR 通道的各种损耗情况

虽然目前没有适用于 LR Max 的标准,但值得注意的是,行业对额外裕量的需求引发了对 LR Max SerDes 架构的需求。接收器均衡方面的创新 DSP 技术 — 例如,LR Max 接收器中的 MLSD(如图 4 所示) — 以牺牲边际功率和延迟为代价提供了具有吸引力的实施方案。

图 4:具有 MLSD 的自适应 DSP,用于实现 LR Max 均衡

结语

HPC 数据中心的网络基础架构在不断发展,使得百亿亿次级计算成为现实 — 从 100G 提高到 200G/400G 和 800G。新型电光接口(例如共封装光学器件、近封装光学器件和带线性接口的可插拔光学器件)提供了多种选择来优化功耗、延迟和性能。新思科技提供集成的 112G 以太网 PHY IP,极短距离 (XSR)、XSR+、线性、超短距离 (VSR) 和 UCIe PHY 可以实现电气接口。适用于 LR 和 LR Max 通道的 Synopsys 112G 以太网 PHY 可满足机架内 DAC/ACC 链路的额外余量需求。

新思科技 IP 技术公告

深度技术文章、白皮书、视频、网络研讨会、产品公告等等。

阅读更多