搜尋新思科技

深度解析Synopsys.ai 技術

觀看網路研討會，瞭解如何運用全方位AI技術提升晶片設計效率以應對系統複雜性挑戰。

針對 AI SoC嵌入式處理器 IP進行標準檢測的7個竅門

本文原文由Gordon Cooper張貼

英文原文：7 Tips for Benchmarking Embedded Processor IP for AI SoCs

從智慧音箱、數位相機，到邊緣伺服器與超大規模資料中心，這類仰賴深度學習神經網路，以提供可操作性感知能力的應用不勝枚舉。賦予這些系統生命是系統中強固的 AI SoC，也就是利用強大的嵌入式處理器執行運算密集型演算法的 SoC。

晶片設計工程師在為 AI 應用設計晶片組時，顯然會想將最好的 AI 處理器與神經網路加速器整合進系統裡。但是，該如何確定什麼才是真正最適合所開發中的應用程序的獨特要求呢？處理器標準檢測(processor benchmarking)就是種經過檢驗而可靠的方法，能幫助工程師找出一些答案。但即使如此，想要在處理器上執行的 AI 演算法類型仍會對其效能產生顯著影響。那麼，又該如何準確比較可用的處理器呢？

這篇部落格文章，會分享一些神經網路加速器效能標準檢測的考量因素，以及為AI SoC 選擇理想嵌入式處理器 IP 的重要訣竅，並深入解析為何可程式化(programmable)處理器能讓比較過程變得更簡單。

選擇神經網路來進行精確的標準檢測

AI 演算法日益複雜，也越來越針對手持式產品的應用發展。此外，有很多的變數會影響處理器針對特定應用的執行效能，多到難以進行公平合理的比較。用來執行簡單演算法的處理器，可能不足以執行較複雜的演算法，而所得到的功率與效能標準資料也無法在晶片上提供精確的結果。

對 AI 處理器進行標準檢測以執行卷積神經網路(CNN)，會涉及許多考量因素。簡單來說，如果有個常見的神經網路和相同的資料與係數，就可以在架構中執行這個神經網路以產生效能結果，而這通常是精確的量測結果。然而，對於即時的嵌入式系統，則需要將功率、區域、延遲、頻寬等參數納入標準檢測，才能得知更真實的全貌。要理解 SoC 整體的效能，也需要考量晶片製程節點(process node)、時脈速度(clock speed)及網路的優化措施(如壓縮和量化) 等方面的問題。由於標準檢測的目的是比較兩個以上的架構，以驗證某個特定架構是否能符合應用需求，所以清楚瞭解自己的系統與其限制是非常重要的。

有很多的變數會影響處理器針對特定應用的效能，多到難以進行公平合理的比較

目前沒有所謂的業界標準神經網路可針對 AI 硬體進行標準檢測，但MLPerf 標準檢測套件已經非常接近這個標準。MLPerf 標準是由開放式工程聯盟 ML Commons 所開發，可算是實質上的業界標準指標，可量測機器學習效能，現在也包含資料集和最佳實行範例。在推論方面，此聯盟的神經網路還包含數據中心、邊緣運算、行動運算與微型資料中心等相關應用。

在 MLPerf 標準檢測套件中，最常用的神經網路之一是 ResNet-50，一種 50 層深的 CNN，可用以進行物件分類。此神經網路可做為構件(building block)來創造更進階的標準檢測神經網路。MLPerf 所提供的神經網路，可視為評估特定處理器架構效率的起始點。當然，每家處理器廠商都有其誘因，要將其神經網路加速器在 MLPerf上盡可能最佳化。這表示，如果單看 MLPerf 結果，可能無法衡量他們工具的好壞。這點極其重要，因為這些工具必須要能準確執行神經網絡映射，才能讓特定的處理器最佳化。如果以 MLPerf 作為標準檢測的起點，那麼也可選用一些非標準神經網路，讓供應廠商在短時間內進行優化，使其更了解他們的處理器效能。

為嵌入式 AI 處理器定義標準檢測參數

既然我們已經討論過標準檢測過程中的一些考量因素，接下來分享七個為SoC 選擇嵌入式 AI 處理器 IP 的訣竅：

混合使用標準與自訂神經網路來進行 AI 硬體的標準檢測。對現成神經網路進行標準檢測，可以衡量廠商自行最佳化的能力。測試非標準和自訂神經網路，則能衡量廠商的工具映射演算法(map algorithms)的能力。
量測效能時，單位請使用週期/幀或在某特定赫數(Hz)的每秒幀數(fps)。若使用 fps，則應提及頻率 (請謹慎使用 f_MAX/峰值，業界對於「峰值」並沒有標準的定義)。此外，請注意每秒一兆次操作 (TOPS) 基本上是一種行銷數字，不該用於標準檢測。TOPS 呈現出AI 晶片在特定時間內可進行多少次運算操作，但不會說明晶片可進行的操作類型或品質，也不考慮功耗。
將壓縮(可改善 fps)和準確度配對。壓縮過多會對準確度造成負面影響，因此必須取得兩者的量測值。
明確說明頻寬限制。隨著神經網路加速器的規模成長，記憶體頻寬成為 AI 系統日益嚴重的瓶頸。因此，「無限頻寬」的假設會導致標準檢測過於樂觀。
對功率模擬資料抱持懷疑。廠商的功率估計值可能會有很大差異。可能的話，請選擇 AI 工作負載(workload)仿真模擬結果，而非模擬或靜態分析。
依據標準調整面積。請確保所提供的面積與標準檢測時的設定(記憶體大小、設定選項等等)相同。
由於漏電狀況因使用案例不同而有明顯差異，請依據工作溫度調整面積/功率。

接下來，讓我們深入瞭解「功率」這項在運算密集型 AI 工作負載的功耗/效能取得平衡的關鍵要素。由於動態與靜態功耗皆受製程技術微縮的影響，因此需要不斷做出取捨，在功耗和性能需求之間取得平衡。為能校準處理器選擇和應用功率，IP區塊的早期和準確功率預估是非常重要的。由於單一效能與功率指標不夠全面，我們也必須考量進行功率預估的條件。舉例來說，在評估 CNN 功耗時，最準確的指標是典型神經網路的能量(單位為每幀焦耳數)。不過，計算平均每幀功率是件深具挑戰性的事。許多設計人員會選擇測量神經網絡其中一個卷積層的能源效率，但即便是這個方法也一樣困難重重，因為單一「代表」層不一定具有代表性。

為了達到最高的功率測量準確度，需要一個能夠在完整佈局的網表(netlist)上執行數十億次 CNN 週期的解決方案。模擬會花太多時間。另一方面，仿真模擬則能幫助 IP 開發者與 SoC 設計人員，在幾分鐘或幾小時內準確計算嵌入式處理器數億個處理週期的功率，而不會花上數週甚至數個月的時間。

確保對 AI 處理器 IP 選擇的信心

就算完成了標準檢測並選擇了處理器，神經網絡的前景展望也不會原地踏步。隨著神經網路持續進化，AI 處理器必須跟上神經網路最新發展的腳步，而這是個不斷進行中的目標。你也需要一個硬體加速的解決方案，其功率與面積都已盡可能最佳化，同時還可程式化以提供彈性。有新功能可用時，可以修改可程式化處理器的程式碼以支援這些功能。實際上，透過軟體管理新興的神經網路功能，某種程度上可以防止它過時。

新思科技的技術專家利用可程式化的新思科技 DesignWare ARC® EV 處理器，與客戶密切合作數百項標準和非標準神經網路標準檢測，以促進其嵌入式影像解決方案，並提供準確的 fps、功率、面積、頻寬與延遲等相關資料。我們的客戶可以利用新思科技詳盡的開發工具作出更好的取捨，比如，以更大的內部 SRAM 換取頻寬的提升，或為了更大的神經網路而增加面積。以較低的頻率執行以節省功耗也是一種取捨的選擇，而其他人則可能以性能為優先考量而非準確度。ARC EV 處理器包括可快速進行神經網路標準檢測的各項工具。

作為新思科技豐富的 AI 解決方案組合之一，新思科技提供專門化的處理器、記憶體性能和即時連接性 IP，可加快產品上市時程。除了ARC EV處理器之外，新思科技 ASIP Designer 工具支援平行性的自訂處理與專用的資料路徑要素，可用於專用指令集處理器 (application-specific instruction-set processors; ASIPs)的設計與實作。新思科技 DesignWare 記憶體 IP 為頻寬、效能和快取一致性 (cache coherency)等不同的記憶體限制提供高效率架構。此外，新思科技 IP 則為視覺、自然語言理解和情境感知等 AI 應用提供可靠且即時的連接性，可連接至 CMOS 影像感測器、麥克風和運動感測器。

總結

從辨識語音指令的智慧音箱，到模擬氣候變化模式的高效能運算應用，AI 在我們的生活中變得越來越無所不在。讓這些應用成真的 AI SoC，需要能夠滿足密集型運算工作負載需求的處理器 IP。隨著標準檢測神經網路持續進化，為了建立相關應用開發所需的高效能 AI SoC 架構，選用可預測功率、面積與性能的嵌入式處理器至關重要。

Synopsys AIoT Summit 2021線上研討會，提供最新ARC處理器 IP 和相關軟硬體技術整合的深入資訊。歡迎報名參加，以瞭解半導體市場發展趨勢以及針對廣泛嵌入式領域，包括物聯網、車用安全、嵌入式視覺、軟體安全等特定基於ARC的解決方案。