人工知能(AI)SoCのDNA

人工知能(AI)はこの10年でいくつかの大きな進歩を見せ、現代において最も人々を魅了するテクノロジの1つとなっています。2012年、画像認識コンテストのImageNetでトロント大学のジェフリー・ヒントン教授は汎化能力を高めたバック・プロパゲーション(誤差逆伝播法)によるニューラル・ネットワーク・アルゴリズムを披露し、コンピュータ・ビジョンの分野に革命を起こしました。この数学理論自体はそれ以前に開発されていましたが、このタイミングでこの偉業が実現したのは、Nvidia GTX 580 GPUなどマイクロプロセッサが進化したことに理由があります。メモリー帯域幅が比較的広く、非常に高い行列乗算性能を備えたプロセッサを使用したため、このニューラル・ネットワーク・モデルは学習にかかる期間が約1週間にまで短縮されました。このように数学と高い処理性能が組み合わさることで新世代のテクノロジが次々と開発され、まったく新しいAIの可能性が開けています。本稿では、新時代のAIデザインおよびそこで求められるプロセッシング、メモリー、コネクティビティのさまざまな要件についてご説明します。

AIの分類

図1に示すように、人工知能(AI)の一部に機械学習があり、機械学習の一部にニューラル・ネットワークがあり、ニューラル・ネットワークの学習をディープ・ラーニングと呼びます。これらの区別はきちんと押さえておく必要があります。というのも、現在システム・オン・チップ(SoC)のアーキテクチャ設計に影響を与えているのはAIや機械学習ではなく、その一部であるディープ・ラーニングであるためです。

図1:AIはディープ・ラーニング・アルゴリズムを使用して人間の行動を模倣

ディープ・ラーニングはSoCの構成に影響を与えているだけでなく、半導体市場で新世代の投資を次々と生み出しています。畳込みニューラル・ネットワーク(CNN)などのディープ・ラーニング・アルゴリズム・モデルは、研究開発コミュニティと商業目的の両方で広く利用されています。CNNは主にマシン・ビジョンに利用されています。これに対し、再帰型ニューラル・ネットワーク(RNN)などのモデルは時間を認識できるため、自然言語の解釈に利用されています。

AIの応用

ニューラル・ネットワークのディープ・ラーニングは多くのアプリケーションで使用され、ユーザーにとって強力なツールとなっています。例えば、高度なセキュリティ脅威解析を実行してセキュリティ侵害を予測・予防したり、潜在的顧客がとる行動パターンを予測して広告主が販売プロセスを特定し、合理化できるようにしたりするのにもAIは活用されています。ここに挙げた2つの例はいずれも、GPUとAIアクセラレータという最新の半導体テクノロジを導入したサーバ・ファームで実行されるデータセンター・アプリケーションです。

しかしAIが利用されているのはデータセンターだけではありません。物体や顔を検出するビジョン・システム、ヒューマン・マシン・インターフェイスを改善する自然言語解釈、コンテキスト・アウェアネスなど、さまざまなセンサー入力を組み合わせて周囲の状況を理解する新しい機能が数多く登場しています。自動車、モバイル、デジタル・ホーム、データセンター、IoTなどあらゆる市場で、こうしたディープ・ラーニング機能がSoCに追加されるようになっています(図2)。

図2:幅広い市場でAI機能を取り込んだアプリケーションが登場

現在のスマートフォンは、上記のAI機能の多くにニューラル・ネットワークを利用し、顔認識アプリ、物体識別アプリ、自然言語解釈アプリなどを実行しています。また、5Gでは多くの媒体が追加され、多くの異なるスペクトラムを使用し、さまざまな優先度のデータが転送され、無線信号の密度が高くなるため、ネットワークの自己組織化にニューラル・ネットワークが内部で使用されます。

人間の脳

ディープ・ラーニングが実現可能になったのは、数学と半導体ハードウェアの両方が進歩したごく最近のことです。現在は、次世代の数学モデルと半導体アーキテクチャを使って人間の脳をより忠実に再現しようという試みがいくつか進められています。これらは一般にニューロモルフィック・コンピューティングと呼ばれます。人間の脳は驚くほど効率がよく、テクノロジはまだその足元にも及びません。人間の脳をコンピュータにたとえると、1ペタバイト以上のメモリーと約540兆個のトランジスタを12 W未満の消費電力で動作させていることになります。これをテクノロジで再現するには、まだ長い年月が必要です。しかし、2012年に画像認識コンテストのImageNetで初のバック・プロパゲーション(誤差逆伝播法)CNNアルゴリズムが登場した後、2015年にはResNet 152と呼ばれるより高度なAIモデルが人間をしのぐ誤り率を達成しています。この市場は急速に進歩を続けており、新しいアルゴリズムが頻繁に発表されると同時に、半導体も市場での競争に勝つために必要な機能を次々と取り込んでいます。

AIデザインの課題

SoCにディープ・ラーニングの機能を取り込むには、SoCアーキテクチャにいくつかの重大な変更を加える必要があります。具体的に必要となるのは、特化したプロセッシング、革新的なメモリー・アーキテクチャ、リアルタイムのデータ接続性で、これらは特定用途向けソリューションと汎用AI SoCデザインの両方に影響を与えます。

特化したプロセッシング

SoCでニューラル・ネットワークを処理するには、ヘテロジニアス・コンポーネントを内蔵して行列乗算を超並列実行する必要があります。ヘテロジニアス・コンポーネントには、スカラー/ベクターDSP、およびニューラル・ネットワーク・アルゴリズムの機能が必要です。例えばマシン・ビジョンの場合、図3に示すように処理のステージごとに必要なプロセッシングが異なります。

図3:ニューラル・ネットワーク機能には特化したプロセッシングが必要

前処理は簡単なデータ・レベル並列性があれば十分ですが、選択した領域を詳細に処理するにはより複雑なデータ・レベル並列性が必要で、これは行列乗算性能に優れた専用のCNNアクセラレータを使うと効率よく実行できます。意思決定ステージは通常、スカラー・プロセッサで処理を実行します。具体的な要件はアプリケーションによって異なりますが、AIモデルを効率的に扱うにはニューラル・ネットワーク・アルゴリズムのアクセラレーションも含めたヘテロジニアス・プロセッシング・ソリューションが必要であることは確かです。

メモリー性能

AIモデルは大量のメモリーを使用するため、シリコン・コストが増大します。ニューラル・ネットワークのトレーニングには数GB~数十GBのデータが必要で、最新世代のDDRメモリー容量が必要です。例えば画像ニューラル・ネットワークのVGG-16は、トレーニングに約9 GBのメモリーが必要で、より高精度なモデル(VGG-512)になるとトレーニングに必要なデータは89 GBに増大します。AIモデルの精度を高めるには、より大規模なデータセットが必要となり、この結果、モデルの学習にかかる時間が長くなるか、ソリューションに必要なメモリー容量が増大します。行列乗算を超並列実行する必要があること、そしてモデルのサイズや係数の数が増大することから、アクセス帯域幅の広い外部メモリーが求められます。こうしたニーズに対応するため、High Bandwidth Memory(HBM2)や今後予定されている派生規格のHBM2eなど新しい半導体インターフェイスIPの採用が急速に進んでいます。人間の脳をより忠実に再現し、メモリーの制約に対処するため、より大容量のオンチップSRAMアレイを可能にする先進のFinFETテクノロジ、およびメモリーとプロセッサ間、メモリーとメモリー間のカスタム・インターフェイスを使用した独特の構成の開発が現在進められています。

AIモデルは圧縮が可能です。携帯電話、自動車、IoTなどのエッジ機器で使用するSoCはメモリーの制約が大きいため、このようなアーキテクチャではモデルを圧縮して実行する必要があります。プルーニングや数量化と呼ばれる手法を用いてモデルを圧縮すると、結果精度の低下を防ぐことができます。このように圧縮すると、LPDDRを使用した(または外部メモリーを一切内蔵しない)伝統的なSoCアーキテクチャでもニューラル・ネットワークをサポートできますが、消費電力などの面でトレードオフがあります。これらのモデルは圧縮されているため、メモリー・アクセスと演算強度の不規則性が大きくなり、システムの実行時間とレイテンシが大きくなってしまいます。このため、システム設計者は革新的なヘテロジニアス・メモリー・アーキテクチャを開発しています。

リアルタイムのデータ接続性

AIモデルの学習(および圧縮)が完了したら、さまざまなインターフェイスIPソリューションを介してリアルタイム・データを取得しながらAIモデルを実行します。例えばビジョン・アプリケーションでは、MIPI CSI-2(Camera Serial Interface)およびMIPI D-PHY IPを使用してCMOSイメージ・センサーを接続します。LiDARやレーダーは、PCI ExpressやMIPIなどのテクノロジを利用してサポートします。マイクからの音声データはUSB、PDM(Pulse Density Modulation)、I2Sなどの接続を介して送信します。デジタル・テレビでは、HDMIおよびDisplayPort接続を利用してビデオ・コンテンツをニューラル・ネットワークに送り、超解像処理を適用することで、データ量を抑えてより高品質な画像を得ることができます。現在、かなり多くのテレビ・メーカーがこの技術の採用を検討しています。

今後採用が進むとみられるもう1つのコンセプトに、ハイブリッドAIシステムがあります。例えばフィットネス・バンドには、内蔵の心拍数アルゴリズムがAIを使用して異常を高い精度で検出し、この情報をクラウドに送信してニューラル・ネットワークで詳細に解析した上で適切に対処するといったものもあります。この種のテクノロジはすでに電力系統の負荷分散(特に電線の障害時や予期しない需要の増大時)に導入され、成果を上げています。このような応用例でクラウドへの高速かつ高信頼性ネットワークをサポートするには、アグリゲータにEthernetコネクティビティが必要です。

ボトルネックへの対処

人間の脳を完全に再現するのはまだ遠い先の話ですが、人間の脳は既にAIシステムを構築する効果的なモデルとして使われており、今も世界中の主要な研究機関でモデル化が続けられています。最新のニューラル・ネットワークは、この効率とコンピューティング機能を模倣しようと試みています。プロセッサとメモリーを密結合して人間の脳を再現しようとしたSoCアーキテクチャも登場しています。ARCサブシステムは、広く普及したRISCアーキテクチャにAPEX拡張機能を追加し、AIに必要な処理能力を備えると同時に、ペリフェラルとメモリーの両方をプロセッサに密結合して、メモリー・ボトルネックという重大な課題を解決します。

AI向けのDesignWare IP

AI、それも特にニューラル・ネットワークを利用したディープ・ラーニングは一生に一度あるかないかのテクノロジ開発です。AIはニューラル・ネットワークのアルゴリズムにおける革新、そして広帯域・高性能な半導体デザインの革新を組み合わせることにより、急速に発展してきました。

シノプシスは世界中のあらゆる市場分野で多くの主要なAI SoCプロバイダと協業しています。この経験は、実証済みの高信頼性IPソリューションを導入してリスクの軽減と開発期間の短縮、およびAIデザインの競争力強化を図る上で大きな成果を上げています。

シノプシスは多くの特化したプロセッシング・ソリューションに加え、メモリー・インターフェイスIP、メモリー・ボトルネックを解消するTCAMやマルチポート・メモリーなどをサポートしたオンチップSRAMコンパイラ、更にはリアルタイム・データに対応した幅広いコネクティビティ・オプションをご提供しています。これらのIPソリューションは、次世代AIデザインを構成する上で非常に重要な要素となります。

 

詳細情報

ウェブサイト:人工知能向けのDesignWare® IP