最新人工智慧(AI)驅動系統的運算與輸入/輸出(I/O)需求,已經超越製程節點的擴展。若試圖追求更大面積的晶片,接近光罩極限,往往會導致良率降低和成本提高。另一個問題是,部分類比和輸入/輸出功能在新的先進製程節點上並無明顯效益;遷移到新製程節點,主要只是將功能轉移到更昂貴的晶圓上,收益微乎其微。此外,創新的腳步正在加快,新一代系統單晶片(SoC)的開發週期已經從傳統的 3- 4 年縮短為1-2年。
根據 IDtechEx 的報告,小晶片(chiplets)市場到 2035 年預計將達到 4,110 億美元。此技術透過將 SoC 的功能分拆成更小的異質或同質晶粒,並將這些小晶片整合到單一系統級封裝(SIP)中,進而有效提升運算能力與輸入/輸出頻寬。在系統級封裝中,總體矽含量可以超越單一 SoC 的光罩尺寸限制。系統級封裝不僅包含傳統的封裝載板(package substrates),還可能涵蓋中介層(interposer)以提升佈線密度,進一步強化單一標準或先進封裝中的功能和整合性。圖1顯示了在高效能運算應用中,透過UCIe晶粒對晶粒介面互連的小晶片可能應用場景。
圖1:使用 UCIe IP 進行晶粒對晶粒互連的高效能運算(HPC)小晶片範例
理想中的小晶片市場是讓設計人員能夠自由選用搭配現成的小晶片,以快速建構系統。如此一來,設計團隊便能專注於產品差異化,而常見的運算和輸入/輸出功能則交給小晶片來執行。截至目前為止,唯一成功實現這個願景的領域是符合JEDEC 標準的高頻寬記憶體(HBM)模組。其他領域則因標準化不足和功能碎片化,難以實現這個願景。即使 UCIe 標準的強化、ARM CSA 規範以及各種汽車產業聯盟等都已經有一定進展,但距離業界所期待的小晶片市場仍有一段差距。本文將深入探討系統設計人員在進行小晶片設計與整合時所面臨的關鍵議題和決策。
設計團隊首先需要考量的問題是,設計中將包含哪些功能區塊和功能,以及如何將這些功能劃分到不同的小晶片中。此外,設計人員還需為每個區塊選擇最高效的半導體製程節點。常見的架構是將運算、輸入/輸出和記憶體分別放在不同的小晶片中,接下來則是針對延遲、頻寬和功耗等方面進行權衡取捨,這些考量因素均與製程節點的選擇和小晶片的分割方式息息相關。
在人工智慧加速器中,負責運算的晶粒通常需要採用最新的製程節點,以提升效能和功耗。然而,快取記憶體並不一定適合同一製程。儘管快取記憶體可與運算晶粒整合在同一顆晶粒上,但靜態隨機存取記憶體(SRAM)在最新節點的擴展規模可能不如邏輯電路,因此在成本較低的節點上實作 SRAM 會更有效率。此外,透過 2.5D 晶粒對晶粒介面進行晶片外傳輸,其表現可能無法滿足針對延遲的要求。其中一個解決方式是採用 3D 實作,將運算晶粒置於最新的 N 節點上,而 SRAM 和輸入/輸出則採用 N-1 或 N-2 節點。以 AMD Ryzen7000X3D 處理器為例,它採用了第二代 3D V-Cache技術,整合了 3D 堆疊運算和SRAM,詳情可見 Tom’s Hardware 的文章《AMD 分享新一代 3D V-Cache 小晶片細節,其速度高達 2.5 TB/s》。
至於類比功能或輸入/輸出介面功能(例如 PCIe 或乙太網路等),其對延遲有較高的容忍度,故可獨立於主晶片並適合透過 UCIe 介面連接。此外,此類晶片可以採用較舊的製程節點以節省成本。
UCIe 已成為小晶片之間晶粒對晶粒互連的實際使用標準,但採用 UCIe 配置仍有諸多考量。設計人員必須根據小晶片的工作負載來瞭解其頻寬要求,這可能包含主頻帶(main band)資料的頻寬,以及用於控制和管理的側通道(side channel)資料。以人工智慧伺服器輸入/輸出小晶片的應用為例,UCIe 的頻寬需求與乙太網路、UALink 或 PCIe 等介面 IP 有關。設計人員要做出幾項決策,包含每條通道的資料傳輸率,以及是否要採用具有較長傳輸距離的有機載板(UCIe標準),或是選擇使用最小的晶粒邊緣(beach front)及最小凸塊間距的先進封裝(UCIe進階)。此外,資料傳輸率(從 16G 到 64G)與滿足晶粒邊緣限制所需的通道數也需要權衡取捨。可用的晶粒邊緣空間可能會隨著介面 IP 的實體層(PHY)佈局而有所不同。根據小晶片的目標外形尺寸和/或長寬比,設計人員可以選擇將實體層單行排列在晶粒邊界;另一種替代方案則是將 PHY 以列雙層堆疊,藉此將晶粒邊緣空間縮減一半,但代價是會增加 PHY 區域的深度。大多數 UCIe 應用皆採用串流介面。設計人員必須決定如何將 UCIe 串流介面橋接至介面 IP。可能的選項包含 AXI、ARM CXS 或即將推出的 PXS 等標準。此外,還需要考量如何在不浪費頻寬的情況下將資料包裝到現有資源中,以執行時脈跨越(clock crossing)功能,以及決定資料是直接從 UCIe 點對點傳輸至介面 IP,還是傳輸到片上網路(network-on-chip, NoC),以提升小晶片內部的連接彈性。
如今,封裝技術受到前所未有的重視。這些技術創新不僅帶來新契機,也讓單一晶片設計或多晶粒設計面臨更多挑戰。
設計人員必須決定如何在多晶粒設計中互連這些小晶片。相較於包含中介層(interposer)或矽橋(silicon bridge)的 2.5D 架構,有機載板可以提供更快的設計排程與更低的成本。針對更進階的使用情境,通常需要中介層來滿足互連密度以及電源/接地和訊號路徑的需求。一旦決定採用中介層,設計人員還必須進一步選擇使用成熟的矽中介層、較新的有機載板重佈線層(RDL),或是帶有矽橋的 RDL 中介層,以滿足更密集的互連需求。矽中介層是一項成熟的技術,但隨著尺寸增大,其成本也顯著提升且受限於脆性(brittleness),因此無法無限擴展。RDL中介層旨在降低成本並提供更大的尺寸,以整合具有更多矽含量的大型系統。無論選用哪種技術,設計人員都將面臨新的挑戰,包含機構外形尺寸、訊號完整性和電源完整性分析、個別小晶片的熱分析,以及晶粒之間的交互作用等。此外,凸塊規劃(bump planning)和晶圓探針佈局(wafer probe placement)方面也更為複雜,必須協調小晶片、封裝和測試的各項要求以維持一致性。即使在同一類型的載板或中介層中,凸塊間距也有所不同,載板上的常見間距範圍為 110 至 150 微米(micron),而用於中介層的微凸塊間距則為 25 至 55 微米。若加入 3D 晶粒堆疊,則差異會更大,如圖2所示。
圖2:3.5D 封裝範例,其中 3D 晶粒堆疊透過中介層連接到另一個 2D 晶粒。
封裝挑戰的另一部分涉及測試規劃,包括在小晶片上進行晶圓探針存取,以判定已知的良好晶粒(known good dies, KGD),並運用 IEEE 1838 協定和多晶粒測試伺服器來檢測無法直接從外部引腳存取的晶片。
IP整合帶來了多項挑戰,包括與互通性(interoperability)、驗證和安全性相關的問題。
一旦設計者完成了異質或同質小晶片的系統分區,設計安全性便會成為新的重要考量。對於多晶粒設計而言,其潛在攻擊面(attack footprint)更加廣泛,因此必須加強防範。首要問題是提供認證機制,以驗證每個小晶片。接著,根據最終應用,設計人員可能需要提供信任根(root of trust)來處理敏感資料,並在系統之間傳遞金鑰以進行資料加密服務。設計人員還可以考慮安全開機流程,以防止硬體和韌體層面遭到外部篡改。此外,還必須保護在關鍵介面之間進行傳輸的資料,例如 PCIe 和 CXL 完整性與資料加密(Integrity and Data Encryption, IDE)、DDR 和 LPDDR內嵌記憶體加密(inline memory encryption, IME),以及乙太網路 MACsec 功能。另一個選項則是支援 Arm 機密運算架構(Confidential Compute Architecture, CCA)。
系統層級的模擬(simulation)、仿真(emulation)和原型設計(prototyping)是開發過程中不可或缺的步驟,能確保功能性和效能,以實現一次成功的晶片設計。協同設計的工作應涵蓋晶片、軟體和系統元件,以實現最佳的整合和效率,讓設計人員可以在晶片尚未量產之前即先行開發相關軟體。
要從一個想法發展到多晶粒設計,需要經過多重考量和深厚的經驗累積。新思科技提供業界最廣泛的標準化介面 IP,以及 IP 子系統整合服務,打造可直接整合的小晶片子系統。設計人員可以利用新思科技的系統解決方案設計服務和生態系合作夥伴,結合對新思科技電子設計自動化(EDA)和 IP 產品的豐富經驗,從而加速開發流程,並確保晶片、封裝和軟體產品最佳化。設計人員可以隨時與新思科技接洽,討論他們的想法、架構、IP選擇、設計流程和方法論、RTL、IP 整合、物理實作、封裝設計、晶圓廠管理,或者與新思科技合作採取全方位的端到端設計模式。憑藉新思科技的專業知識和技術服務,設計人員可以專注於自身核心競爭力,同時將其他設計環節交付給相關領域的專家,以實現最快速且最可靠的上市時程。