带Die-to-Die PHY IP 的系统级封装的量产测试

使用 Die-to-Die PHY IP 的系统级封装的量产测试

新思科技高级产品营销经理 Manuel Mota

简介

半导体行业面临的一个主要挑战是无法在量产阶段早期发现产品缺陷。将有缺陷的产品投放市场的代价(经济和声誉)将非常地巨大。对于设计面向超大规模数据中心、网络和 AI 应用的高性能计算片上系统 (SoC) 的开发者而言,尤其如此,因为任何产品缺陷都可能对 AI 研发的工作量或数据处理产生灾难性影响。

半导体行业已经开发了一系列测试方法,以提高量产测试的速度和覆盖范围。这些方法已经过标准化,可以在最终产品制造的不同阶段(从晶圆测试到芯片测试再到板级测试)使用通用的测试指标和接口,从而提高效率。

本文介绍了如何使用Die-to-Die PHY IP 对系统级封装 (SiP) 进行高效的量产测试,以确保最终产品没有缺陷,并保持尽可能高的量产良率。本文介绍了Die-to-Die PHY IP 内部测试功能如何扩展所有die 的测试范围。

SiP 测试的挑战

将多个裸die集成到一个封装,再次引起了人们的兴趣。促成这一趋势的因素有两个:一方面设计复杂性日益提高;另一方面 SoC 的尺寸太大,难以实现经济高效的单片集成,也不具备在技术和经济上更有意义的工艺节点下实现不同 SoC 功能的灵活性。

SiP 是在一个封装中集成多个die(或“chiplet”)的芯片。这些既可以是多个相同的chiplet,以提高系统性能;也可以是不同的chiplet,以经济高效的方式为系统带来更多功能。

通常,chiplet由不同的供应商生产之后,集成到同一封装中。如图 1 所示,现代的 2.5D 或 3D 封装技术以复杂的方式集成了多个die,利用(较为简单的)有机基板或(较为复杂的)硅中介层、硅桥和硅过孔 (TSV) 来输送die之间以及到封装外围的信号。

图 1:具有不同绕线功能的不同封装技术 

单个die、封装“结构”(中介层、TSV、bump)和封装组件可能会受到良率的限制。即使每个单独元件的良率都比较高,SiP 的总良率(所有不同元件的累积良率)也可能会非常低,如以下公式所示:

良率 SiP  = 良率 N Die x 良率封装 x 良率组件 

其中,N = 同一封装中集成的die数。

以一个带有 4 个 die 的 SiP 为例,每个die的良率均为 90%,良率为 100% 的封装和集成,其总 SiP 良率仅为 65% 左右。对于高级工艺节点中的大型die,个体良率为 80% 就很不错,但最终的 SiP 良率可能会非常低,约为 41%。基本上,一个die的缺陷会使整个 SiP 失效,即便其余三个die无缺陷。

为了提高良率,企业需要遵循两个原则:

  1. 确定并且仅在封装中集成已知合格die (known good dies, KGD)。这样,上例中的总 SiP 良率等于各个die的良率。
  2. 集成后,验证跨die的功能,以检测集成过程中的缺陷以及其他难以通过测试单个die来识别的缺陷(例如,在单个die测试期间可能无法检测到有缺陷的bump)。

通过在die层面和集成系统层面开展测试并修复功能,避开缺陷或以其他方式克服已发现的缺陷,还可以帮助提高良率。这样的测试和修复功能可以包括冗余或其他方案,并且对于大型的常规结构,例如存储器或跨die的非常宽的总线,特别有用。

鉴于 SiP 测试颇为复杂,并且die来源各不相同,在整个生态系统实现标准化的测试基础架构和方法,对于 SiP 和chiplet生态系统的成功至关重要。IEEE 和其他标准组织正在加紧为 3D 封装die制定新的测试架构标准。

SiP 测试架构

例如,最近发布的 IEEE 1838 为 SiP 产品定义了标准化的模块化测试访问架构,使系统设计人员和测试工程师能够高效地验证其产品,如图 2 所示。

图 2:IEEE 1838 测试访问架构,用于测试单个die、集成die和封装 SiP 

IEEE 1838 基于针对单片 SoC 的现有测试标准(例如 IEEE 1149.1、IEEE 1500 等),定义了一种测试架构,用于管理单个die和集成die的测试,仅需增加最少的测试电路,即可实现完整的die-to-die功能块的测试覆盖范围。

IEEE 定义了一个用于测试控制和低速测试数据访问的串行端口(基于 IEEE 1149.1),该端口在每个die中实现并且即使在最终集成后仍可访问;同时定义了一个可选的并行测试访问端口,但在集成后可能无法访问。这些端口减少为仅使用一组测试bump进行非集成die测试,或者无缝连接到另一个die中的相应端口,从而扩展了测试基础架构,以涵盖集成后的die内或die间测试。

此外,IEEE 定义了测试的层次结构,将工作划分为 KGD 的die内测试、封装后组件的die间测试,以及封装组件本身的die间测试,如图 2 所示。

在每个die内部,可以定义更多测试层次结构,按照既定方法来测试数字逻辑块、存储器块以及其他具有扫描链和内置自测 (BIST) 结构的模块。die之间的数字连接是基于边界扫描链进行测试的。

高速模拟块测试通常基于功能测试进行,但也可以通过添加与测试基础架构衔接的合适测试包装器,集成到测试管理层次结构中,如图 3 所示。

图 3:Chiplet内部的测试架构层次结构,包括用于在整个测试基础架构中集成高速模拟块测试功能的包装器

为了实现测试自动化并缩短测试时间,高速模拟块(例如高速 PHY IP)必须提供足够的测试覆盖范围。这在考虑高速die-to-die链路时,变得更具挑战性。对于此类情况,需要依靠高速 PHY 内置的测试基础架构,对包括两个die上的 PHY、关联的bump和封装链路在内的完整链路进行测试。

实现die间连接的高速 PHY 必须包括许多测试设计 (DFT) 功能:

  • 用于静态和快速检测数字电路中的故障(固定型、开路、传输/跳变缓慢)的扫描链
  • 内置自检 (BIST) 功能,尽可能地检测特定数字和模拟模块
  • 内部环回测试单个 PHY;这些环回可能很浅(覆盖数字电路),也可能很深(覆盖所有发射和接收信号路径,直至达到bump或尽可能接近bump,而不会避免对任务模式性能的影响)
  • 支持伪随机模式或特定模式的模式生成器和匹配器
  • 能够扫描参照位和相位以生成通过/失败眼图,确定设计裕度
  • 从一个die到下一个die的外部环回,将测试覆盖范围扩展到了bump和die-to-die走线,如图 4 所示。

图 4:实现内部和外部环回的die间 PHY

已知合格die的测试

强制性的初始步骤在 SiP 中进行集成之前执行,先确定有缺陷的芯片,以便仅集成 KGD,从而显著提高整体生产良率。

在封装之前,会对裸片进行 KGD 测试。对于符合 IEEE 1838 标准的die,使用标准的串行和并行测试访问端口,以通过一组精简的测试bump访问die的完整测试基础架构。

模拟块内的测试功能(例如高速 PHY IP)也通过符合 IEEE 1500 标准的包装器与die测试基础架构互连,从而也可以进行 PHY 测试。

根据die的内置测试功能和die中的各个块,可以实现很高的测试覆盖率,以确保正确识别 KGD。然而,即使在最好的测试覆盖场景中,也有一些项目不能在裸片层面上得到充分覆盖。例如,有缺陷的bump或敏感输出驱动器的最后一级,以及低噪声放大器的第一级,都无法获得高速 PHY 的深度环回覆盖。其他示例包括跨越两个die的功能,例如控制回路。

将覆盖范围扩展至此类缺失项以及die间连接,将在集成的 SiP 上于测试策略的后续步骤中执行。

假设两个die均符合 IEEE 1838 标准,则将die的测试基础架构无缝合并到同一个(“第一个”)die的测试端口处评估的单个结构中,并利用辅助测试端口扩展到下一个die。

现在可以启动测试,例如针对数字引脚的边界扫描 EXTEXT 以及针对高速 PHY 的跨die环回测试,将测试覆盖范围扩展到die的外围以及封装本身。

其他良率改善策略

值得注意的是,在某些特殊情况下,上述分层测试方法可能不足以将良率提高到所需水平。

请考虑在两个die之间设置较宽的并行接口:例如,在存储器和数字芯片之间设置高带宽存储器 (HBM),或在两个数字芯片之间设置高带宽互连 (HBI)/高级接口总线 (AIB)。这些接口可能有成千上万个使用微型bump的引脚,并在中介层设置非常密集的走线以连接这些引脚。在这种情况下,基板走线或微型bump的良率可能非常低,导致产生 KGD 损失。对于此类情况,可以采用一种补充的测试和修复策略,依靠每个 PHY 上的冗余引脚以及相应的冗余微型bump和走线,可以在最终产品集成后额外恢复更高的良率。

结语

市场需求不断增长,需要将多个die集成到同一封装中,以用于高性能计算应用和许多其他应用,对die(集成前和集成后)的测试成为实现预期良率的关键所在。基于标准的die测试基础架构,必须将测试覆盖范围扩展至裸片层面和集成 SiP 上。Die-to-Die 接口的功能同时涵盖了组成链路的两个die,因而在测试策略中起着重要作用。die-to-die PHY IP 必须包含一些测试功能,能够简化裸片级和集成后链路本身的测试,同时能够集成在芯片测试基础架构中。

新思科技为 USR/XSR 和 HBI 链路提供了一种 die-to-die PHY IP 产品组合。嵌入式误码率 (BER) 测试仪和无损二维眼图监控功能,为信道性能提供了片上可测性和可见性。新思科技借助先进 FinFET 工艺中的可用 IP 以及易于集成的所有必要分析和报告,为设计人员提供了必要的全面支持,以加速用于超大规模数据中心、网络和 AI 应用的高性能计算 SoC 设计。