創鑫智慧與新思科技合作 成功推出開創性的AI加速器

運用AI人工智慧驅動的推薦系統正為創造嶄新客戶體驗開闢新途徑。借助這項技術,網路商店可以利用凸顯商品選項讓用戶任意添加到購物車,數位音樂服務可根據已設定輪播的曲目推薦歌曲,社交媒體則可以提供可能符合用戶興趣的內容。當這些系統自然流暢地運作並提供準確的建議時,它們還可以為公司帶來更多利潤收益。然而,為能產生精準的建議,需要大量具有挑戰性的工程工作在幕後運作。

AI人工智慧加速器是推薦系統技術堆疊(technology stack)的關鍵部分,它的速度和能源效率(以每焦耳能量的推論來衡量)是能準確預測的關鍵要素。2019 年,Meta(當時的 Facebook)呼籲業界基於其開源深度學習推薦模型(open-source deep learning recommendation model; DLRM)來開發用於推薦系統(recommendation system)的硬體加速器。當時的號召行動激發 Neuchips Inc. 的工程團隊,在以開放運算計畫(Open Compute Project; OCP) 的架構中擴大推薦系統的效能。並且為了滿足 Meta 的要求,這家新創公司於今年(2022)夏天宣布,已經成功在台灣完成第一款 DLRM 加速器 – Neuchips RecAccel™-N3000的設計並投片試產(tape out)。

Neuchips RecAccel™-N3000專為資料中心推薦模型而設計,每焦耳可實現100萬個DLRM推理,相當於每20瓦晶片每秒進行2,000萬次推理。這個AI加速器的開發運用新思科技提供的EDA工具及來自其他半導體領導者的支援,未來將採用台積公司7奈米製程技術生產,樣品可望於 2022年底準備就緒。

在這篇部落格中,我們將娓娓道來創鑫智慧這個由30名工程師組成的團隊,如何在短短18個月內完成400mm2 AI晶片的投片;這個過程以往需仰賴超過100名工程師,耗費3至4年才能達成。

應用於數據資料中心的Direct-to-ASIC工程方法

就雲端資源的使用而言,AI推薦系統,特別是DLRM,在機器學習應用中扮演著主導的地位。採用新穎的DLRM能產生更有用的預測,但同時需要在固定的能源和空間限制下具備更多的運算能力。創鑫智慧開創direct-to-ASIC獨特的工程方法,透過專門建構的特定領域的AI加速器以及共同設計的編譯器和運行時期軟體來加速系統軟體開發。在創鑫智慧的非同步與異質的數據資料流程架構中,每種類型的IP和處理器都是為能優化DLRM 邏輯架構元件而精心定製。而可配置的新思科技ARC® 處理器,具有低功耗和高性能特性,在 RecAccel™-N3000 的突破性效能中扮演著不可或缺的角色。

RecAccel™-N3000的其他功能包括:

  • 160MB晶粒內建(on-die) SRAM
  • 具備inline錯誤修正碼(error correction code, ECC)的4x64 LPDDR5
  • 高達 128GB的卡式DRAM
  • 多達 16 個 PCI Express® (PCIe®) 3.0、4.0 和 5.0通道
  • 嵌入式安全硬體信任根(root-of-trust)模組

為能率先進入市場,創鑫智慧尋求能幫助其加快其設計週期的相關技術支援、設計和驗證工具以及IP。透過由新思科技與台灣工業技術研究院(Industrial Technology Research Institute, ITRI)共同成立的AI晶片設計實驗室,創鑫智慧找到所需的資源。創鑫智慧的團隊已有許多人熟悉新思科技的技術,因此當下就決定與新思科技合作進行這項不凡的計畫。

AI晶片設計實驗室位於臺灣新竹工研院總部,獲得來自台灣新思科技與經濟部技術處全球研發夥伴專案計畫的支持;實驗室旨在提供最新的設計工具以及設計與驗證服務,協助台灣半導體在AI產業應用發展。AI 晶片設計實驗室提供的主要產品之一是以ARC AI參考設計平台為基礎的新思科技系統級(system-level)解決方案,涵蓋架構設計、虛擬原型設計建造和系統驗證等。此設計平台旨在協助降低AI的進入門檻並縮短設計週期。

縮短晶片開發時程達一年以上

基於DLRM其獨特的特性,難以透過一般通用型AI加速器達成。創鑫智慧開發的RecAccel™-N3000具備客製的硬體IP,可加速嵌入表(embedding table),矩陣乘法(matrix multiplication)和特徵交互作用(feature interaction)。創鑫智慧與新思科技合作,借助ARC AI 參考設計平台實現早期軟硬體共同開發,從而節省了一年以上的系統晶片開發時間。透過該設計平台,創鑫智慧團隊得以儘早開發和驗證RecAccel™-N3000特定領域AI加速器的PCIe 5.0子系統及其LPDDR5子系統,並將其整合到整個晶片中。同時也採用新思科技雲端ZeBu® Server 4 仿真(emulation)系統,對子系統及完整 RecAccel™-N3000晶片進行驗證。

RecAccel™-N3000 利用一系列新思科技IP 模塊,包括:

使用經矽晶驗證的新思科技IP ,幫助創鑫智慧團隊降低整合風險並縮短設計週期。新思科技的應用工程師亦協助創鑫智慧團隊優化以雲端為基礎的晶片設計代碼、進行 IP配置 以及在以FPGA為基礎的 ZeBu Server 4 系統上進行模擬和驗證,將完整的ASIC RTL模擬時程從兩週縮短到大約20分鐘。

參與RelAccel™-N3000開發的其他設計和驗證工具還包括:新思科技 Design Compiler RTL合成解決方案、新思科技 VCS®功能驗證解決方案、新思科技 SpyGlass®靜態和形式驗證平台、新思科技Verdi®自動除錯系統,新思科技 Formality®等效性檢查工具、新思科技PrimeTime®靜態時序分析工具、新思科技PrimePower RTL簽核功耗分析工具以及新思科技 IC Compiler™ II 佈局繞線解決方案。

總結

隨著推薦系統在數位世界中變得越來越普遍,創鑫智慧RelAccel™-N300的誕生恰逢其時。透過加速資料中心的推薦系統推理,高效、節能與可擴展的 AI 平台可望協助各行各業在網路上實現客戶體驗的個人化。藉由與新思科技、工研院和其他台灣半導體生態系夥伴密切合作,創鑫智慧加速了上市時程,在提供有效AI解決方案的競爭市場中拔得頭籌。