新思科技PrimeSim+英伟达最新GPU,联手打造芯片验证黑科技

Synopsys Editorial Staff

Mar 16, 2022 / 1 min read

图形处理器(GPU)技术在过去十几年里取得了巨大进步。

GPU最初用于渲染图形和视频,如今则越来越多地用于深度学习、人工智能(AI)等高性能计算(HPC)任务中,我们在移动设备上看电影或在玩游戏时其实都能享受到GPU带给我们的更好的视觉享受。

随着半导体工艺技术的持续进步以及电路复杂性的增加,电路仿真在成本、质量和结果产生速度等方面面临着严峻挑战,因此,一套支持GPU性能拓展的统一流程对于芯片验证至关重要。

GPU :加速电路仿真和签核的理想选择

如图1所示,在包含数千万甚至数亿个元件的各种电路(PLL、SerDes、SRAM、PHY)中,GPU的仿真运行速度可提升多达10倍。因此,GPU将是加速电路仿真和签核的理想选择。

PrimeSim Continuum采用英伟达最新GPU

新思科技PrimeSim™ Continuum可提供独特的下一代CPU-GPU混合架构,显著提升性能,并满足如今智能应用的签核精度要求。PrimeSim仿真器推出之初采用的是英伟达V100 GPU,最新版本(2021.09)则支持英伟达A100 Tensor Core GPU架构。

Ampere A100是英伟达于2020年推出的最新GPU,利用GEMM(矩阵乘法)加速的架构概念,针对双精度FP64数据类型纳入了Tensor Core支持,将峰值GPU性能提升至19.5 TFLOPS。

表1比较了Ampere A100(2020)与数据中心现存的其前代产品Volta V100 (2017) GPU的关键属性,可以看出,Ampere显著增强了以下这些关键硬件功能:

  • FP16吞吐量提高了5倍
  • DRAM带宽提高了2.2倍
  • L2缓存提高了6.7倍

Ampere架构还包括可加速机器学习和HPC应用的硬件支持,比如Tensor内核的稀疏结构。在存储器系统中,A100提供一系列功能可以为更好地控制数据移动和放置提供支持。A100支持将数据直接从存储器层次结构传输到共享存储器,而无需通过寄存器文件传输数据。A100还提供一组新的 L2缓存控制操作,允许开发者对缓存进行替换,有效地支配驻留在缓存中的数据结构。最后,L2缓存里的硬件支持的压缩数据,得以在DRAM和 L2中保持(节省带宽和容量),并在和流线性多处理器 (SM) 传输时进行解压或者压缩。

PrimeSim可支持Ampere A100架构,因此具有以下优势:

  • SM数量增加35%,从80个增加到108个
  • 支持能够执行FP64运算的Tensor内核
  • L1 和 L2缓存分别增加2倍和6.7倍
  • 内存带宽增加2倍,从900GB/s 增加到 2TB/s

随着现代工艺节点带来更多设备,SPICE仿真器的两个最重要任务是模型评估和矩阵解决方案。对于具有大量晶体管的大型网表,拥有更多SM的好处显而易见。每个流式多处理器都是双精度计算单元,能够并行运行数千个线程。这样可以并行进行大量的器件评估。更大的L1和L2缓存意味着数据交换次数将会减少,这同样有助于缩短仿真时间。

通常来说,网表中的寄生参数越多,产生的矩阵就越密集,而求解这些矩阵的计算成本高昂,因为它们需要以双精度进行大量的浮点运算。在这种情况下,SM中的Tensor内核可帮助增强这一性能。A100具有高达19.5 TFLOPs的能力,能够极其高效地求解密集矩阵。

如图2所示,A100-40GB GPU具有高浮点运算能力,且通过使用CPU和GPU的最佳组合,其性能与V100 GPU相比平均可提升50%。

GPU加速实现SPICE精度的签核

对大规模电路进行SPICE精度的签核这一需求日益增加。这种模拟和混合信号仿真一般都比较耗时,而且通常无法达到开发者们所需要的精度要求。

新思科技的PrimeSim Continuum借助GPU的异构加速计算架构,不仅可以助力开发者实现对极具挑战性的大规模电路进行SPICE精度的签核,而且可以有效将仿真运行时间从几天或者几周缩短至几小时,帮助开发者在不压缩精度的情况下有效鉴定芯片设计的性能特点。

Continue Reading