搜尋新思科技

深度解析Synopsys.ai 技術

觀看網路研討會，瞭解如何運用全方位AI技術提升晶片設計效率以應對系統複雜性挑戰。

合作案例亮點：使用NVIDIA A100 GPU 強化新思科技 PrimeSim 電路模擬

本文原文由Samad Parekh張貼

英文原文：Customer Spotlight: Synopsys PrimeSim Circuit Simulation Improvements with NVIDIA A100 GPUs

在過去十年裡，GPU技術的進展令人超乎想像。GPU最初常用於渲染(render)圖形和影片，無論是在平板上玩互動遊戲還是看電影，都是受益於GPU的功能；然而，現在GPU應用已進階至深度學習及人工智慧等高效能運算(HPC)領域。事實上，HPC產業正朝向加速運算模型發展，而在GPU上進行密集計算，將得以實現更快的實際執行時間。

隨著半導體製程技術持續進步和不斷增加的電路複雜性，電路模擬現在正面臨著更大的挑戰，特別是在模擬成本、品質和結果時間層面。為了解決這些挑戰，並確保晶片經過完整驗證，使用者需要一個具備先進GPU效能擴展的統一流程。

GPU是加速電路模擬和簽核的理想選擇

隨著CPU效能提升幅度趨於平穩，GPU成為了加速電路模擬和簽核流程的理想選擇。在具有數千萬或數億元件的各種電路類型(PLLs、SerDes、SRAMs、PHY)中，GPU可以提升10倍的模擬運行時間，如圖1所示。

圖 1：使用V100 GPU 後的效能提升

新思科技PrimeSim Continuum 現已升級，搭載NVIDIA Ampere Tensor 核心 A100 GPU

新思科技 PrimeSim™ Continuum提供獨特的下一代CPU-GPU混合架構，可顯著提高效能，同時滿足當今先進應用的簽核準確度要求。

PrimeSim模擬器最初推出時採用NVIDIA V100 GPU，而目前的最新版本 (2021年9月)則已搭載NVIDIA A100 Tensor 核心 GPU架構。2020年推出的Ampere A100是NVIDIA最新款的GPU。傳統的HPC工作負載，如電路模擬，持續需要更多的雙精度運算效能和記憶體頻寬。利用通用矩陣乘法(GEMM, General Matrix-Matrix Multiplication)加速的架構概念，A100納入了Tensor 核心針對雙精度FP64資料類型的支援，將GPU峰值效能提升到19.5 TFLOPS。表1比較了Ampere A100 (2020)與其部署於資料中心的前代產品Volta V100 (2017) GPU的關鍵屬性。

	Volta V100	Ampere A100	Increase
FP64	7.8 TFLOPS	19.5 TFLOPS	2.5x
DRAM Bandwidth	900 GB/s	2,000 GB/s	2.2x
NVLink Bandwidth	300 GB/s	600 GB/s	2x
L2 Capacity	6 MB	40 MB	6.7x
DRAM Capacity	32 GB	80 GB	2.5x

表 1：V100和A100 GPU的關鍵屬性比較

Ampere極大幅地提高了關鍵硬體屬性中的每一個項目，包括5倍的FP16產出量(throughput)，2.2倍的DRAM頻寬，以及6.7倍的on-chip L2快取記憶體。除了大規模的平行計算產出量和記憶體頻寬，Ampere架構還包括可加速機器學習和HPC應用的硬體支援，例如，Tensor 核心所支援的結構化稀疏(sparsity)。在記憶體系統中，A100提供一系列的功能，以更好地控制資料的移動和放置。A100在傳輸資料時可直接將記憶體階層結構轉移到共用記憶體，無需透過暫存器檔案(register file)。此外，A100還提供了一套新的L2快取記憶體控制操作，允許程式設計師執行快取記憶體的替換策略，並有效地決定將哪些資料結構留在快取記憶體中。最後，L2快取記憶體具備硬體支援的資料壓縮，得以在DRAM和L2中保持壓縮狀態以節省頻寬和容量，並在傳輸到串流多處理器(Streaming Multiprocessor, SM）時進行解壓縮或壓縮。

支持 Ampere A100 架構的PrimeSim 具備以下優勢：

串流多處理器數量增加了35%，從 80 個提升到 108個
支持能夠執行 FP64 運算的 Tensor核心
L1和L2快取記憶體分別增加 2 倍和 6.7 倍
記憶體頻寬增加2 倍，從900 GB/s 提升至2 TB/s

隨著現代製程節點產生更多裝置數量，SPICE模擬器的兩個最重要任務在於模型評估和矩陣解法。擁有更多串流多處理器，對於具有龐大電晶體數量的大型電路網表將可以帶來直接助益。每個串流多處理器都是一個雙精度計算單元，能夠並行運行數千個線程，如此將能並行進行大量的設備評估。更大的L1和L2快取記憶體意味著更少的資料交換次數，亦有助於縮短模擬時間。

一般而言，電路網表中存在越多寄生元件，將會產生更密集的矩陣，由於處理這些矩陣需要運用大量的雙精度浮點運算，因此計算成本十分高昂。在此情況下，串流多處理器中的Tensor核心將可帶來強化效能，A100擁有高達19.5 TFLOPs的運算能力，可以絕佳高效能處理密集矩陣。由於A100 GPU具備前述增強功能，在相同案例中選用CPU及GPU最佳組合，A100-40GB GPU與V100 GPU相比，前者平均效能可提升50%，如圖2所示。

圖 2：A100 GPU 與 V100 GPU 相比之下的效能提升

利用 GPU 來實現SPICE 準確度

以SPICE級別準確度來模擬大型電路的需求日益增加。這些類比和混合訊號模擬通常過於耗時，而且在許多情況下，這些模擬無法以使用者需要的準確度水準運作。PrimeSim Continuum將會是另一種選擇－借助GPU異質加速計算架構的力量，將有助於解決極具挑戰性的電路模擬，以實現SPICE級別的準確度簽核，進而將執行時間從幾天或幾周縮短到幾小時之內。這也是讓使用者在不影響準確度的情況下，有效鑑別設計效能的實用方法。

更多部落格文章

NEW 從過度設計到協同設計：正視晶片的多物理場挑戰

NEW 以時序感知多物理場 ECO 突破設計收斂瓶頸

軟體定義硬體輔助驗證 (Software-Defined HAV)：AI 世代晶片設計的新標準

運用 AI 更快更準確地偵錯

運用多物理場融合技術革新晶片設計

新思科技推出業界首款完整 UFS 5.0 及 M-PHY v6.0 IP 解決方案，驅動新世代高速儲存技術

新聞集錦

NEW 新思科技發表第一波多物理場融合解決方案

NEW 新思科技攜手台積公司以通過矽晶考驗的IP解決方案與認證過的EDA流程驅動次世代AI系統

新思科技解決方案支援美國國家航空暨太空總署(NASA)阿提米絲(Artemis)登月計畫協助太空衣分析與通訊系統的開發作業

新思科技以全端設計解決方案支援全新的Arm AGI CPU