AI需要全新的低功耗設計方法

本文原文由Godwin Maben張貼

英文原文:AI Requires a New Approach to Low Power Design

數十年來,低功耗設計方面的議題一直被廣泛討論。然而,隨著製程幾何尺寸的縮減,相關的功耗挑戰也隨之加劇;同時,對低功耗元件的需求,也隨著應用場景(use case)的發展而呈指數級增長。

各家廠商持續針對可攜、手持式設備的特色與新功能不斷創新,已是不爭的事實,但此類設備都需要盡可能地降低功耗(對於消費者而言,這也是產品差異的關鍵因素),藉此以延長電池壽命。由於智慧型手機已普及了十多年,因此行動設備方面的設計挑戰也就相對地廣為周知。

但對於「插入式」(plug-in)產品而言,功耗效率(power efficiency)的重要性日益受到重視。因為它對於建構一個系統(需要散熱器以及複雜冷卻系統)以及設備運作(如:對於使用大規模並聯系統的伺服器farm而言,降低單一晶片的功耗可讓企業達到顯著的整體節能─甚至有助於更為環保的營運方式)的總體成本會帶來顯著的影響。

AI 帶來的新挑戰

設計團隊在低功耗領域真正所面臨且務必解決的大問題,正是AI晶片,尤其是高效能運算(HPC)應用中所採用的各式晶片。雖然將AI晶片應用於資料中心和其他HPC時,並沒有傳統行動設備方面的限制(如電池壽命、便攜性);但其仍對AI所需更小、更密集、更新穎的架構以及製程方面,帶來全新的功耗挑戰。傳統上對於效能、功率、面積 (PPA) 的追求,依然受「盡量達到最高效能」的需求所主導。但是,現今效能實際上已受到功耗的限制。要針對晶片上的每一部分都提供穩定電源、又不必擔心散逸熱能會影響晶片的可靠度與造成熱失控(thermal run-away),顯得相當困難。

高階 AI 晶片的功耗將對整體功能、可製造性、成本與可靠性產生重大影響。因此,設計團隊必須開發出更為聰明的功耗設計方法,並採用細緻的功耗分析技術及工具。

漏電功耗(Leakage Power)問題再次浮出檯面

低功耗設計就是要降低積體電路(IC)的整體動態(dynamic)與靜態(static)功耗。動態功耗包括開關功耗與短路功耗,而靜態功耗則是漏電或元件處於非活動狀態時流過電晶體的電流所產生的功耗。

漏電功耗是設計團隊於90到16 奈米製程幾何尺寸的主要問題,在這個尺寸範圍內,動態功耗(10-15%)問題與漏電功耗(85-95%) 相比之下較輕微。但若是16到14奈米尺寸,動態功耗問題比起漏電功耗則更為顯著。這種問題占比的變化,也呼應了電晶體架構由平面裝置轉換為 FinFET的變化─FinFET是一種構建於基板上的多閘極元件,其將閘極置於通道的兩側、三側或四側或圍繞通道,形成一種雙閘極(double-gate)的3D架構。

然而,在7、5 與3奈米的製程節點以及類似「閘極全環」(gates all around)的架構中,漏電功率又再度成為主要的問題之一。如今,設計團隊正回頭摸索過往設計中擱置不談的選項,以盡可能找出提升設計功耗與效能的方法。對於降低先進製程中額外設計裕度(margin)的必要性已廣為討論一段時間,但實際上能對此有所貢獻的技術能力則散見於設計流程的各個部分。話雖如此,人們對於解決此類問題的技術及方法已相當熟悉,但時至今日才剛剛開始真正瞭解如何準確地使用這些技術。

軟硬體的協同運作

傳統上,低功耗設計是由對晶片具有完整系統層級認識的架構師督導。架構師指導團隊的其他人員使用特定功能向量(functional vector)來分析功耗─但這是一種效果非常有限的設計方法。

如今,您會發現由硬體、軟體與架構領域的團隊成員從零開始的攜手合作(通常為並行工作)。多年來,人們對於在同一設計中採用多元團隊以及跨領域融合,已討論多時;但這對於實現新一代人工智慧晶片而言,卻扮演著極為重要的角色。

因此,團隊必須深入瞭解功耗在軟體開發、硬體設計以及製造方面所造成的影響。新的設計方法側重於並行設計,以求儘早優化PPA且避免成本高昂的下游重新設計。

低功耗設計整體面面觀

低功耗設計並非一蹴可幾。其涉及一系列降低整體動態與靜態功耗的技術及方法。一般而言,最佳化的功耗需要貫穿整個晶片設計的流程,其設計及驗證方法有以下五大主要階段:

  1. 靜態功耗驗證與探索
  2. 動態功耗驗證與分析
  3. 軟體驅動(software-driven)的功耗分析
  4. 功耗設計實現(power implementation)
  5. 簽核(signoff)

新思科技能夠提供已經過驗證的低功耗設計流程及解決方案,範圍涵蓋低功耗設計及驗證─包含必要的工具與整合,可於設計過程各階段支援並解決功耗問題。

仿真模擬(emulation)的重要性

向量品質(quality of vectors)是動態功耗分析與優化最關鍵的部分。向量品質是依SoC於系統實際運作時所見的真實活動狀況而定。如前所述,傳統的功耗分析過程需要與SoC架構師進行核對,以確認能夠用於功耗分析及優化的向量。但所採用的向量並不一定涵蓋所有面向與情境。

為求準確預測SoC的功耗量,設計人員會將SoC 置於能真實呈現SoC 如何被使用的測試環境(test bench)中。而這個能夠執行實際應用的最佳系統,稱之為仿真模擬(emulation)系統。

人們需要高效能的工具,才能執行AI晶片功耗分析所需的大量資料數據。即便只是在仿真模擬器上執作應用程式短短幾秒鐘,產生的資料數據也會相當巨量(由數萬億或數十億個時脈週期所組成的上百GB資料量)。為能幫助解決這個問題,仿真模擬系統內的功耗分析功能可確立功耗分析的關鍵時間區間(window of interest),並將區間數由數十億縮減至數百萬乃至數千,使仿真模擬系統提供的功耗分析更為實用。

新思科技的 ZeBu伺服器是業界最快速的仿真模擬系統─採用獨特的快速仿真架構、最先進的商用FPGA與基於FPGA的創新仿真軟體,可提供相當於傳統仿真解決方案兩倍的效能。這些軟體方面的創新,讓用戶能夠更快速地進行編譯(compile)、實施進階除錯(debug),包括與Verdi的緊密整合(native integration)、仿真加速、混合仿真─當然也包含功耗分析。

此外,因應AI晶片設計而出現的「第三維度」(third dimension)—溫度,是行動晶片設計中較不受重視的影響因素。能在設計先期階段利用仿真模擬產出熱圖(heat map),對於整體設計過程而言將發揮重要影響。

在AI晶片的低功耗設計方面,若要打造一支來自諸多不同領域且能緊密合作的設計專業團隊,採用新方法或新工具(例如仿真功能)將不可或缺。

欲更加深入了解低功耗設計的資訊,請造訪新思科技官網設計與驗證專區:Silicon Design & Verification