112G 以太网 PHY 的设计挑战和演进之路

新思科技技术营销经理 Madhumita Sanyal

云计算和超大规模数据中心对更高带宽网络设备以及连通性的需求正在推动交换机技术从 25Tb/s 过渡到 51Tb/s,并很快会过渡到 100Tb/s。业界已选择以太网来推动交换机市场,目前采用 112G SerDes 或 PHY 技术,未来将采用 224G SerDes。正如 Arista Network 联合创始人兼董事长 Andreas Bechtolsheim 在图 1 中强调的那样,112G SerDes 的部署将在 2025 年达到峰值。本文介绍了设计师如何克服设计挑战,例如功耗、面积、封装、信号完整度、电源完整性以及使用 112G 以太网 PHY IP 实现 800G 以太网 HPC 系统。

交换机芯片 SerDes 的速度从每通道 100G 提升到 200G

图 1:交换机芯片 SerDes 的速度从每通道 100G 提升到 200G

来源:市场焦点:通往 800G 及更高速率之路 - Arista Networks

设计挑战

面积和功耗

随着使用更低功率调制技术(如PAM-4)和高速 SerDes 技术(如 112 以太网 PHY)的增加,从 7nm 到 5nm 到 3nm 过渡到更先进的工艺技术,降低功率和面积成为一个关键焦点。此外,由于良率问题,晶粒尺寸也存在限制。以太网交换机 SoC 中的组件需要更密集的集成以保持相同大小,因为服务器盒和计算盒必须安装在机架单元中的同一机箱中,如图 2 所示。

数据中心和 ToR 交换机中服务器机架的空间限制

图 2:数据中心和 ToR 交换机 SoC 中服务器机架的空间限制

然而,SoC 组件的这种密集集成导致功耗增大,并且需要昂贵的冷却系统。所有这些因素都使得面积、功耗和延迟成为高密度交换机的关键指标或挑战。它们还会影响性能,因为交换机的 SoC 包含数百条通道,使得系统性能比单个 SerDes 性能更重要。

演进到共封装光学器件

数据中心光学器件也在不断演变,以支持更高带宽的网络需求。光学和 ASIC 都必须解决光开关互连中的面积、功率和延迟问题,并将光开关的电气 I/O 功耗降至最低。图 3 显示了可插拔光学电源的演变,这是目前的首选技术。

每比特光学器件功率显著下降

图 3:每比特光学器件功率显著下降

资料来源: 市场焦点:通往 800G 及更高速率之路 - Arista Networks

各种 SerDes 架构 — 甚短距离 (VSR) 和直接驱动(无 DSP) — 正在解决交换机和光学模块中的功耗挑战。在下一代数据中心中,主机侧具有 VSR PHY 的超高速可插拔光学器件的功耗将低于中距离或长距离 PHY的功耗。因此,放置在交换机 SoC 附近,与 VSR PHY(消耗 2.5-3 pJ/b)的共封装光学器件 (CPO) 的概念正在不断发展。目前,CPO 概念的 12Tb/s,25Tb/s 器件已经可用,51Tb/s 处于试点阶段,预计很快会达到 100Tb/s 的批量部署。交换机接口上的长距离 PHY - 无论是共封装还是直接驱动光学组件 - 也可以通过消除 retimer 来降低功耗。一种新兴的 2.5D/3D 硅光子光学连接技术,它使从高密度可插拔 (OSFP-XD) 到 CPOs 的一系列光模块成为可能。SerDes IP 提供商持续关注生态系统,以继续应对功耗挑战。

信号完整性

尽量减少影响上市时间的风险因素是 SoC 设计师的关键目标。克服系统信号完整性挑战便是其中的一个风险因素。100Gbps 的高速信号彼此之间必须具有最小的串扰 (xtalk) 影响,同时避开晶粒边缘。增加封装层数是解决方案之一,但会导致成本更高。为了满足高速 SerDes 串扰规格,同时最大限度地减少出线层数量和外缘尺寸,设计师必须优化通过封装的高速信号路径。封装设计师和信号完整性专家必须与 SerDes 设计师一起创建 SerDes 封装信号位置图,并进行布线研究和高频仿真以验证符合串扰规格。由于晶粒尺寸限制,51Tb/s 交换机和 AI 加速器需要将 112G SerDes 或 PHY 放置在所有晶粒边缘和多个堆叠中。由于信号出线方向不同,因此需要对南北 (N/S)、东西 (E/W) 方向进行封装出线的研究。此外,设计师需要考虑宏单元的双重堆叠。此外,还需要考虑附近的功耗和接地平面及其阻抗。

设计师还必须:

  • 使用不同电源(数字和模拟)创建多通道 SerDes(51Tb/s 交换机的 512 通道)的配电网络 (PDN)
  • 假设所有物理设备在任务模式下同时切换,执行电源完整性仿真
  • 验证电源交流纹波和最大值/最小值。使用 AC PDN 分析和瞬态仿真来验证 SerDes 的直流规格限制
  • 使用 PDN 共享 RL 模型执行 PDN 设计假设分析
  • 在封装和 PCB 上保持最低的公共部件直流电阻
  • 与封装和 PCB 一起进行 IR 压降分析
  • 保持最低的 PCB 低通滤波器 (LPF) 直流阻抗以及 PDN 直流阻抗

具有有限金属层的宏单元的多个堆叠可能需要间隔,或者宏单元和数字逻辑之间的通道可以放置在此类通道/间隔中。SoC 实施者需要提供稳定的电源结构,并在通道上提供足够的电源,以尽量减少任何 IR 压降问题。在设计阶段的早期,对全芯片进行的 IR 压降分析将显示通道中的任何弱电网。由于 IR 压降修复而导致的电源结构和数字逻辑布局的任何变化都可能影响设计分区,也可能改变芯片平面布局。因此,早期分析对于减少任何对进度的影响是非常重要的。

以太网 MAC、PCS、PHY 实现

400G 和 800G 以太网实现将需要多个 PCS、MAC 和 PHY。SoC 设计师可以在考虑晶粒边缘限制和核心区域限制后,在有或没有宏单元堆叠时实现晶粒设计。这些晶粒块可以是 N/S 和 E/W 方向,或是与方向无关的。通过有效的块分区,可以实现两个方向的单个晶粒。采用块分区和优化的单个块大小的假设分析可以灵活地重复使用晶粒所有边缘周围的块。如果在早期设计阶段发现了时序问题,就可以进行设计改进,例如在不影响延迟的情况下,如果块之间相距很远,就可以进行流水线设计。图 4 展示了单个 800G 以太网晶粒的实现。

顶部 X4 宏单元和底部翻转 X4 宏单元之间的间隙

图 4:可以把 PCS 和 MAC 放置在顶部 X4 宏和底部翻转 X4 宏之间的间隙中,以实现灵活的时序收敛

上述实施方式对于南北方向晶粒边缘上的高速信号的出线可能是行不通的。各种布局的试验需要数月的尝试和问题分析,例如将单个块放置在所需通道中,并最小化内核芯片区域,都会导致时间延迟。由于多达 100 个通道设计和有限的晶粒面积和边缘长度,具有指定边界框的自上而下的设计方法正变得至关重要。块式实现可确保所有晶粒边缘的可重用性和无缝集成。

演进之路

112G SerDes 或 PHY 正在推动云数据中心的下一代计算、存储和网络创新,以实现高性能计算和 AI/ML。实现 112G SerDes 或 PHY 技术的以太网交换机 SoC 设计师必须考虑一系列关键指标或挑战,如电源、面积、延迟、芯片堆叠、信号完整性、电源完整性和实现,所有这些都是在设计师已经很短的设计时间表中增加的任务。

借助先进 FinFET 节点中的经过硅验证的 PAM-4 112G 以太网 PHY,以及 PCS、MAC 和先进 AI/ML 驱动的 EDA 工具,Synopsys 使 SoC 设计师能够实现最佳的功耗、性能、面积和延迟,同时解决系统可靠性、电源完整性和信号完整性问题。

新思科技 已完成了所有必要的工作,例如封装逃逸研究、PHY、SRAM、PCS 和 MAC 布局优化,包括分区和平面图、引脚布局、位置和路由、时序收敛和电迁移验证/IR 压降分析,帮助用户成功完成例化上百个 112G SerDes 通道的大型 SoC 的定案。新思科技可以通过利用我们的逻辑库、内存编译器、EDA 工具、系统解决方案(如 3DIC)、集成的第三方工具(如 Apache/Redhawk),以及与 PHY、MAC、PCS 设计师以及实现专家和系统专家的密切合作,提供一个全面的解决方案。新思科技 为 112G 以太网 PHY、PCS 和 MAC 提供易于集成的交付产品,并提供专家级支持,通过缩短设计周期和帮助产品更快地上市,使客户更顺畅推进工作。