AI SoC设计有多难,不亚于把大象装进200升的冰箱里

Manuel Mota

May 13, 2020 / 1 min read

自大数据问世以来,设计人员在用于超大规模数据中心、人工智能 (AI) 和网络应用的片上系统 (SoC) 的设计过程中,一直面临着不断发展的挑战。由于工作量需求和对于更快地移动数据的需求,此类具有先进功能的 SoC 变得更加复杂,也达到了最大光罩尺寸。因此,设计人员在多芯片模块 (MCM) 封装中将 SoC 划分为较小的模块。这些划分的芯片需要超短和极短距离链路,以实现具有高数据速率的芯片间连接。除了带宽之外,die-to-die 连接还必须确保是极低延迟和极低功耗的可靠链接。

本文介绍了 die-to-die 连接的几种不同用例,以及在寻找用于 die-to-die 连接的高速 PHY IP 也可以使用基于有机基材的传统低成本封装。

Die-to-Die 连接性用例

MCM 中 die-to-die 连接的新用例在不断涌现,其中包括:

  1. 接近最大光罩尺寸的高性能计算和服务器 SoC
  2. 超过最大光罩尺寸的以太网交换机和网络 SoC
  3. 可扩展复杂算法的具有分布式 SRAM 的人工智能 (AI) SoC
连接的高性能计算和服务器 SoC 的示例

图 1:需要 die-to-die 连接的高性能计算和服务器 SoC 的示例

高性能计算和服务器 SoC 的尺寸越来越大,达到 550 平方毫米 (mm2) 至 800 mm2,从而降低了 SoC 的良率并提高了单位芯片成本。优化 SoC 良率的更好方法是将 SoC 分为两个,或多个等效的同质芯片(如图 1 所示),并使用 die-to-die PHY IP 连接芯片。在这种用例中,主要的要求是极低的延迟和零误码率,因为更小的多个芯片的表现和行为必须像单一芯片一样。

以太网交换机 SoC 是数据中心的核心,必须以 12 Tbps 到 25 Tbps 的更快速率转移数据,这需要 256 通道的 100G SerDes 接口,因此无法将 SoC 放入面积为 800 mm2 的光罩区域。为了克服这一挑战,设计人员会将 SoC 拆分,重新进行配置,其中的内核芯片被 I/O 芯片包围,如图 2 所示。然后,使用 die-to-die 收发器将内核芯片连接到 I/O 芯片。

连接的以太网交换机 SoC 的示例

图 2:需要 die-to-die 连接的以太网交换机 SoC 的示例

在这一用例中,仅当 die-to-die 收发器的带宽密度远远优于 I/O 芯片中的长距离 SerDes 时,芯片拆分才有效。因此,关键参数是每毫米的芯片边缘带宽密度。

连接的 AI SoC 示例

图 3:需要 die-to-die 连接的 AI SoC 示例

在 AI SoC 中,每个芯片都包含智能处理单元 (IPU) 和位于每个 IPU 附近的分布式 SRAM。在这种使用情况下,一个芯片中的 IPU 可能需要依赖于极低延迟的短距离 die-to-die 链路来访问另一个芯片的 SRAM 中的数据。

在所有这些用例中,如果为 die-to-die 连接选择理想的高速 PHY,就可以简化 MCM 封装要求。由于每个通道的吞吐量高达 112 Gbps,因此在通道数量相对有限的情况下可以实现非常高的总吞吐量。在这种情况下,封装走线的间距和堆叠可能比较保守(L/S 通常为 10u/10u)。在这些用例中,也可以使用基于有机基材的传统低成本包装。

高速 PHY IP 对于 Die-to-Die 连接的要求

光学互联网络论坛 (OIF) 正在定义电气 I/O 标准,以在超短距离 (USR) 和极短距离 (XSR) 链路上以高达 112 Gbps 的数据速率进行传输。这些规范定义了 die-to-die 链路(即:在封装内),以及芯片到芯片,到与 SoC 位于同一封装内的光学模块的链接,从而显著降低了功耗和复杂性,并实现了极高的吞吐量密度。
在研究用于 MCM 的 die-to-die 连接的高速 PHY IP 解决方案时,SoC 设计人员必须考虑几个基本功能,包括以千兆位或兆兆位每秒(Gbps 或 Tbps)衡量的数据吞吐量或带宽、以每比特皮焦耳 (pJ/bit) 衡量的能源效率、以纳秒 (ns) 衡量的延迟、以毫米 (mm) 衡量的最大链路范围,以及误码率(无单位)。

数据吞吐量或带宽

为了实现与其他收发器的互操作,die-to-die PHY IP 必须确保符合 USR 和 XSR 链路的相关 OIF 电气规范。支持脉冲幅度调制 (PAM-4) 和不归零 (NRZ) 信令,对于满足两种链路的要求,并实现每通道最大 112 Gbps 带宽至关重要。这样的信令产生了非常高的带宽效率,这是一项关键要求,因为在 MCM 中的芯片之间传输的数据量非常大。数据移动的速率通常处于每秒兆兆字节的范围,这限制了分配给 USR 和 XSR 链路的芯片边缘的大小。但是,支持多种数据速率也同样重要。通常,假设其数据速率与内部结构中使用的数据速率一致,或支持 die-to-die 协议所需的所有数据速率,就有望实现芯片到芯片链接。例如,即使在 32 Gbps 这样的高速下,PCI Express 也必须支持低至 2.5 Gbps 的数据速率以进行协议初始化。

链路距离

在 die-to-die 的实现中,大量数据必须流经桥接芯片之间间隙的短数据路径。为了保证将芯片放置在封装基板上时的最大灵活性,PHY IP 必须支持 TX 和 RX 之间 50 毫米的最长距离。

能效

能效成为重要的因素,尤其是在将 SoC 功能划分为多个同质芯片的用例中。在此类用例中,设计人员寻求在不影响 SoC 总功耗预算的情况下,在芯片之间推送大量数据的方法。理想的 die-to-die PHY IP 的能效好于每比特 1 皮焦耳 (1pJ/bit) 或同等的 1mW/Gbps。

延迟和 BER

为了使芯片之间的连接“透明”,延迟必须维持得极低,同时必须优化误码率 (BER)。由于简化了架构,die-to-die PHY IP 本身实现了超低延迟,BER 优于 10e-15。根据链路距离,可能需要使用前向纠错 (FEC) 机制保护互连,以实现如此低的 BER。FEC 延迟会影响解决方案的整体延迟。

宏块布局

除了这些与性能相关的参数外,PHY IP 还必须支持所有侧面的放置芯片,以实现芯片和MCM 的有效布局。优化了宏的布局可实现低耦合的高效芯片间布线,优化芯片和 MCM 面积,并最终提高功耗效率。选择 die-to-die PHY IP 时,还有许多其他考虑因素,包括纳入可测试性功能,以便能够在封装之前对芯片进行生产测试,但是上文所述的因素是最重要的。

结语

数据速率不断提高,功能日趋复杂,使得超大规模数据中心、AI 和网络应用程序的 SoC 大小与日俱增。随着 SoC 尺寸接近占满光罩尺寸,设计人员被迫将 SoC 分成较小的芯片,这些芯片封装在多芯片模块 (MCM) 中,以实现高产量并降低总体成本。然后,一个 MCM 中的多个较小芯片通过 die-to-die 互连进行链接,这些互连具有极低的功耗且每个芯片边缘的带宽都很高。在高性能计算和 AI 应用中,大型 SoC 被分为两个或多个同质芯片,而在网络应用中,I/O 和网络内核被分为单独的芯片。SoC 中的 die-to-die 互连必须不影响整体系统性能,并且要求低延迟、低功耗和高吞吐量。这些要求推动了对高吞吐量 die-to-die PHY 的需求。例如 新思科技(Synopsys) 的 DesignWare® USR/XSR PHY IP,该 IP 支持 MCM 设计中的 die-to-die 连接,每通道的数据速率高达 112 Gbps,而且能效非常高。DesignWare USR/XSR PHY IP 符合用于超短距离 (USR) 和极短距离 (XSR) 链路的 OIF CEI-112G 和 CEI-56G 标准。

Continue Reading