设计更简单,运行更稳健,UCIe标准如何“拿捏”Multi-Die系统?

Rikki Lu

Jul 13, 2023 / 1 min read

如今,从数据中心到边缘层,再到万物智能网络的深处,先进的Multi-Die系统实现了前所未有的性能水平。Multi-Die系统不是通用的单体架构芯片,而是由一系列异构芯片(也称“小芯片”)组成,其中小芯片针对每个功能组件进行了优化。虽然Multi-Die系统具有更高的灵活性并在系统功耗和性能方面表现优异,但也带来了极高的设计复杂性。

通用芯粒互连技术(UCIe)标准于2022年3月发布,旨在推动Multi-Die系统中Die-to-Die连接的标准化。UCIe可以简化不同供应商和不同工艺技术芯片之间的互操作性。即便符合UCIe标准的Multi-Die系统在开发、测试和制造过程中表现良好,但在实际运行时,又如何确保系统的Die-to-Die连接继续保持稳健安全并经过测试验证呢?本文将探讨如何通过IP、测试、硬件加速等方式满足相关要求,从而确保Multi-Die系统的可靠性。

采用UCIe标准的优势

试想一下这种情形:Multi-Die系统包含两块芯片,分别来自两家不同的供应商,并采用了不同的工艺技术,比如7nm和3nm;而且,还需要这两块芯片能够无缝地相互通信并支持行业标准协议,比如PCI Express®(PCIe®)和CXL等。要知道,在设计中每添加一块芯片,系统的延迟就会增加,性能也会随之降低。

要让所有芯片协同工作,并克服延迟难题,需要遵循正确的标准。为Multi-Die系统采用UCIe标准具有以下几个优势:

  • 确保互操作性并降低延迟。选择符合UCIe标准的接口IP可以实现芯片之间的无缝连接和互操作性,而又不会影响整个系统。将系统设计为符合UCIe标准,可以在保持相同延迟的情况下降低功耗并提高性能。
  • 借助冗余通道实现故障修复。UCIe规范在PHY的两侧之间提供了冗余通道,可以通过额外的通道实现故障修复。无论是否连接到外部环境,所有芯片都必须通过UCIe通道进行访问、测试和修复,同时UCIe通道还可以用于监测正在发生的芯片问题。

为确保Multi-Die系统能够长期正常工作,除了采用UCIe标准外,还需要从一开始就保证高质量。鉴于Multi-Die系统的复杂性,不仅要在SoC的开发和制造过程中实现更高的质量,还要在现场运行很长时间后继续保持高质量。为此,需要使用高质量的构建模块(即芯片和IP)、硬件加速和验证工具,并开展持续的测试和现场监测(包括修复),从而主动解决各种潜在问题。

如何确保基于UCIe的Multi-Die系统稳健运行

除了控制器和PHY IP外,以下是确保基于UCIe的Multi-Die系统稳健运行的另外三项要求:

1. 使用协议验证IP和硬件辅助验证平台,从一开始就保证质量

在软件仿真器上运行协议验证IP解决方案,有助于从一开始就确保高质量的UCIe组件和接口层,包括现场设备集成(FDI)上的协议层、原始Die-to-Die接口(RDI)上的PHY接口、中间适配层,或Die-to-Die适配器的实现。

随着设计范围扩大至全栈,涉及到多模块芯片组配置和复杂的Multi-Die系统时,只靠纯软件仿真已经难以满足要求,需要运用更多工具来验证整个系统或各个芯片。在对大型Multi-Die系统进行实际验证时,硬件辅助验证(HAV)平台尤为关键,比如新思科技ZeBu®硬件加速系统和新思科技HAPS®原型系统。为涵盖所有验证用例(从早期的RTL开发,到互操作性和硬件合规性验证),多MHz周期性能、优化的UCIe协议解决方案(事务处理器、速度适配器、硬件接口卡)和系统级调试抽象必不可少。

2. 通过测试确保互连性能符合预期

测试是所有芯片设计过程中的重要一环。在Multi-Die系统中,芯片之间的互连通常基于UCIe等接口。为确保按预期运行,这些互连中不得存在任何固定型故障、开路或短路。信号完整性非常重要,因此必须测量该参数以评估是否存在性能降级情况。UCIe标准要求具有额外的互连以实现冗余。键合后测试可以解决一些可能触发切换互连通道的互连层面问题。在理解故障模型的基础上开发的算法测试也可以用于评估互连缺陷。

3. 采用芯片生命周期管理策略

UCIe接口是Multi-Die系统中芯片之间进行功能通信的主要接口。由于UCIe接口以非常高的速度运行并且是通信的关键路径,因此必须在整个生命周期内对其进行监测和管理。通过监测UCIe的运行状况,可以为汽车、医疗等领域的安全关键型应用提供巨大帮助。例如,在自动驾驶汽车应用中,通过对UCIe的运行状况进行监测,可以让车主及时进行预防性维修,或者提醒车主到店维修,以防在高速道路上发生故障。

新思科技芯片生命周期管理(SLM)系列可在运行期间主动监测UCIe接口,发现通道信号质量下降,即在通道发生故障之前予以修复。此外,它还提供内置自测(BIST),可检测软错误或硬错误以采取纠正措施。

结语

芯片设计正在发生转变。为Multi-Die系统采用UCIe标准只是实现无缝连接和互操作性的第一步。要想驾驭先进Multi-Die系统设计中的复杂性,遵守UCIe标准中的要求是关键。如果想要进一步探索UCIe,或了解新思科技如何助力简化Multi-Die系统设计流程,欢迎查阅新思科技官网,或点击“阅读原文”,了解Multi-Die系统解决方案。

Continue Reading