2021年高效能運算及雲端趨勢預測

高效能運算(high-performance computing, HPC)及雲端運算領域的發展從未停歇,因為正是這些科技推動了人工智慧(AI)、人臉辨識、自動駕駛,3D列印等方面的技術創新。

因應新冠肺炎(COVID-19)在家工作與線上學習的權宜之計下,視訊會議及存取遠端數據的需求量開始增加,使得雲端技術在2020年對於一般消費者的重要性也有所提升。而配合就地避難命令(shelter-in-place order)的發佈,例如提高Netflix和電玩遊戲等家庭娛樂的串流頻寬需求,亦已與日俱增。

越來越多的半導體公司開始製造可供當前先進數據中心使用的高效能運算晶片,而這些公司本身也是利用HPC硬體來設計其產品。此一現象連帶也要求電子設計自動化(EDA)相關應用能更進一步善用雲端高效能運算功能的擴展性與彈性。

全世界適應疫後新常態的同時,HPC及雲端技術從業人員也持續適應當前及疫後世界的新需求。這篇文章分享新思科技(Synopsys)對於HPC及雲端產業在2021年發展的觀點與看法,以及新思科技將如何規劃,為產業提供相關支持。

COVID-19 疫情對HPC的影響

讓我們先從頭說起─2020年的全球COVID-19疫情始料未及,而本文對於疫情將如何持續影響HPC產業進行預測。

新思科技解決方案事業群策略行銷經理Scott Durrant表示:「在後疫情時代,因為越來越多人會選擇在家工作並持續進行遠端學習,減少延遲(latency)將日顯重要。近乎即時互動的功能,乃是讓人們進行遠端互動能盡可能自然並有效率的關鍵所在。在解決延遲問題方面,現在已經有許多發展,包括整合到運算設備中以提升效能的強大處理能力。但其他技術,例如400GbE乙太網路的導入,也能夠使我們可更快速地傳輸數據。」

新思科技解決方案事業群策略暨解決方案總監Scott Knowlton表示:「可預見因為人人家工作,使HPC /雲端市場將出現大幅成長。對於雲端及數據中心的需求也已大大增加,大型的產業顛覆者(mega disruptor)也正致力解決這一問題。其中一項大趨勢,乃是系統效能以及藉由系統獲取數據的重要性日漸提升,而這也推動了伺服器晶片效能(能加速時鐘調節速度(clock speeds)提升,並以極快的速度推動小型幾何技術的發展;前述種種,都會使晶片設計更為複雜。我們也看到許多積極、有力的技術推動,例如PCIe和CXL等最新一代的晶片連結(chip-to-chip interconnect)技術,運用高速及快取一致性(cache coherency)來提升整體系統流通量(system throughput)。」

新思科技驗證事業群工程副總裁Susheel Tadikonda表示:「在過去五到十年間,HPC一直處於成長階段,結合AI之後尤其明顯;COVID-19則更進一步加速其發展。在醫學疫苗研究上,我們就需要將高效能運算與AI等系統結合。全球科學家現正藉由在大量的數據資料上,應用模型組建、模擬,機器學習與分析等功能,加速研究及和成果發現,以加快疫苗研發的步調。要運算複雜的數學模型並將其轉換為模擬真實情況,需要有高效能運算的強大計算能力。而藉由結合AI及機器學習(machine learning; ML),將能更加接近較精確的模擬,以促使人們能夠更快研製出疫苗。」

數位設計事業群產品行銷總監Ruben Molina表示:「由於全球疫情,在家工作所需的基礎設施也同步成長;企業體正設法把握人們對更優質網路基礎設施迫切需求的商機,因此,也沒太多時間等待3奈米節點(3nm nodes)技術的成熟與商業化。如果把局勢看得更遠一點,而不是只關注COVID-19疫情,就會發現企業體已著手更多長期投資,以加速這些新一代製程節點(process nodes)技術的發展。」

HPC /雲端的新應用

每當提及HPC時,許多人都會聯想到超級電腦所達成的驚奇事物,例如預測天氣模式與繪製人類基因組圖。而新思科技的專家則預期在未來幾年中,能夠看到HPC及雲端技術在不同類型的應用中被廣泛使用。

Durrant 表示:「為尋找治療、預防或治癒COVID-19方法而組成的COVID-19聯盟(COVID-19 consortium),正是HPC及雲端應用於醫學領域的一個例子。人們可利用HPC及雲端技術協助研究人員更有效地合作,了解疾病並對其訂定治療策略。此項技術可藉由更強大的運算機制,模擬藥物在各種情況與條件下對人體的影響,減少醫學研究所進行的人體及動物試驗數量。」

Molina說明:「我們能夠看到更多的運算功能被推展至實際接收數據(或稱為『邊緣』(edge))的地方。例如在自動駕駛中,汽車必須接收大量數據並迅速做出決策,沒有多餘時間可等待訊息發至運算伺服器進行處理;所以需要在邊緣即進行數據處理。我們也會在製造工廠等地看到類似的運算能力強化,人們無需將數據發送到集中式電腦裝置以監控裝配生產線上機器的運作狀況與可靠性,而是直接在邊緣處理數據;減少延遲性可增加及早發現潛在故障與防止停機的機會。故障與停機對廠商而言,尤其是可在短短幾分鐘內生產出成千上萬個零組件的廠商,是相當高昂的成本損失。」

HPC工程師將面臨的最大設計挑戰

這類振奮人心的新應用以及滿足在家工作者要求增加頻寬的當前需求,也讓負責設計驅動HPC及雲端技術晶片的工程師,面臨到設計方面的挑戰。以下說明工程師於2021年開始將會面臨的一些主要設計挑戰。

Molina說明:「由於當前許多數據都儲存在集中式的電腦機房中,因此就相當容易受到攻擊。由於資訊不是分佈在數以百萬個設備中,駭客很容易就能知道資訊的確切位置,因此,安全性對軟硬體而言都將是個重大議題;而這正是新思科技與美國DARPA等政府機構合作以確保安全硬體設計的原因,這項設計最終將用於銀行業等以消費者為中心且對安全性需求極高的產業。」

Molina並強調:「晶片的資料存取量會變得更大,也將需具備更高的效能。現階段有一些問題會對晶片造成限制,其一,在一個晶粒上(die)需要安裝多少邏輯閘?另一項則是,要如何設計出這種規模的晶片?為了幫助克服單一晶粒的設計規模,設計人員正在尋求利用3DIC,將設計拆分為多個整合型晶片的設計。也就是說打從一開始,設計人員就需要使用新思科技的3DIC Compiler等工具,進行更多早期平面規劃與以封裝為基礎的訊號完整性分析。在處理不斷增加的單一晶粒設計尺寸方面,設計人員需要諸如Fusion Compiler之類的工具,以期在數量持續增加的運算核心上執行運算功能,從而使其能夠在雲端環境中使用。在雲端環境中,您可以利用數千項種運算資源;如果使用的工具無法在所有此類運算資源上運作,那麼從整體效能與上市時間(time-to-market)的角度來看,這類工具能提供給設計人員的價值將有所侷限。」

Durrant 表示:「晶片的尺寸不斷縮小,這既是挑戰也是機遇。尺寸縮小連帶產生成本增加,因此,若要取得平衡帶來經濟效益,又要能夠運用可於晶片開發中獲得最大影響的方式實施這些新架構,將會是一項持續不斷的挑戰。」

Knowlton表示:「現在已有人提出以一些新技術來處理AI應用(如:圖像辨識)中產生的大量數據傳輸,Compute Express Link (CXL)即是一例。在過去,您必須傳輸記憶體內的所有數據;而現在我們將會看到更多快取一致性(cache coherent)技術的應用,其可將大部分數據保留在原始位置上進行處理,並僅傳送絕對必要的數據;一方面增加連結的頻寬,同時也可減少通過同一通道的流量,進而提升整體效能。」

Tadikonda表示:「由於超過10BG的晶片以及多晶粒(multi-die)和小晶片(chiplet)架構的出現,使得HPC晶片變得日益複雜。能夠混合並搭配不同版本/世代IP的小晶片,為設計人員帶來整合集成方面的挑戰。IP驗證不再只是在區塊層級(block-level)執行,而是在系統環境中進行IP驗證 (例如,IP於初始階段就辨識出實際的刺激因素)。隨著我們在這些小晶片/多晶粒平台上推出各式軟體,系統層級的軟硬體驗證將日益重要。例如,在這些平台上設置合宜的微控制器與韌體數量,以使它們能協同工作以啟動系統啟動,是相當有難度的;而混合引擎(hybrid engine)解決方案則是解決此一問題的明確方式。當設計人員需要在多個抽象層級(如:作業系統(OS)、驅動程式、韌體、硬體介面、匯流排等)進行分析,並了解系統及工作負載行為時,也會導致系統層級的除錯(debug)與效能方面的挑戰。另一項重要領域則是早期功耗分析與估算,因為對於大型設計而言,任何在功耗上的些微節省都相當重要。新思科技正與晶片廠商合作,以協助解決這些驗證挑戰的問題。」