バックナンバーはこちら

today&tomorrow

What's New in DesignWare IP?

2019 vol.112

人工知能(AI)SoCのDNA

特化したプロセッシング

SoCでニューラル・ネットワークを処理するには、ヘテロジニアス・コンポーネントを内蔵して行列乗算を超並列実行する必要があります。ヘテロジニアス・コンポーネントには、スカラー/ベクターDSP、およびニューラル・ネットワーク・アルゴリズムの機能が必要です。例えばマシン・ビジョンの場合、図3に示すように処理のステージごとに必要なプロセッシングが異なります。

画像

図3:ニューラル・ネットワーク機能には特化したプロセッシングが必要

前処理は簡単なデータ・レベル並列性があれば十分ですが、選択した領域を詳細に処理するにはより複雑なデータ・レベル並列性が必要で、これは行列乗算性能に優れた専用のCNNアクセラレータを使うと効率よく実行できます。意思決定ステージは通常、スカラー・プロセッサで処理を実行します。具体的な要件はアプリケーションによって異なりますが、AIモデルを効率的に扱うにはニューラル・ネットワーク・アルゴリズムのアクセラレーションも含めたヘテロジニアス・プロセッシング・ソリューションが必要であることは確かです。

メモリー性能

AIモデルは大量のメモリーを使用するため、シリコン・コストが増大します。ニューラル・ネットワークのトレーニングには数GB~数十GBのデータが必要で、最新世代のDDRメモリー容量が必要です。例えば画像ニューラル・ネットワークのVGG-16は、トレーニングに約9 GBのメモリーが必要で、より高精度なモデル(VGG-512)になるとトレーニングに必要なデータは89 GBに増大します。AIモデルの精度を高めるには、より大規模なデータセットが必要となり、この結果、モデルの学習にかかる時間が長くなるか、ソリューションに必要なメモリー容量が増大します。行列乗算を超並列実行する必要があること、そしてモデルのサイズや係数の数が増大することから、アクセス帯域幅の広い外部メモリーが求められます。こうしたニーズに対応するため、High Bandwidth Memory(HBM2)や今後予定されている派生規格のHBM2eなど新しい半導体インターフェイスIPの採用が急速に進んでいます。人間の脳をより忠実に再現し、メモリーの制約に対処するため、より大容量のオンチップSRAMアレイを可能にする先進のFinFETテクノロジ、およびメモリーとプロセッサ間、メモリーとメモリー間のカスタム・インターフェイスを使用した独特の構成の開発が現在進められています。

AIモデルは圧縮が可能です。携帯電話、自動車、IoTなどのエッジ機器で使用するSoCはメモリーの制約が大きいため、このようなアーキテクチャではモデルを圧縮して実行する必要があります。プルーニングや数量化と呼ばれる手法を用いてモデルを圧縮すると、結果精度の低下を防ぐことができます。このように圧縮すると、LPDDRを使用した(または外部メモリーを一切内蔵しない)伝統的なSoCアーキテクチャでもニューラル・ネットワークをサポートできますが、消費電力などの面でトレードオフがあります。これらのモデルは圧縮されているため、メモリー・アクセスと演算強度の不規則性が大きくなり、システムの実行時間とレイテンシが大きくなってしまいます。このため、システム設計者は革新的なヘテロジニアス・メモリー・アーキテクチャを開発しています。

リアルタイムのデータ接続性

AIモデルの学習(および圧縮)が完了したら、さまざまなインターフェイスIPソリューションを介してリアルタイム・データを取得しながらAIモデルを実行します。例えばビジョン・アプリケーションでは、MIPI CSI-2(Camera Serial Interface)およびMIPI D-PHY IPを使用してCMOSイメージ・センサーを接続します。LiDARやレーダーは、PCI ExpressやMIPIなどのテクノロジを利用してサポートします。マイクからの音声データはUSB、PDM(Pulse Density Modulation)、I2Sなどの接続を介して送信します。デジタル・テレビでは、HDMIおよびDisplayPort接続を利用してビデオ・コンテンツをニューラル・ネットワークに送り、超解像処理を適用することで、データ量を抑えてより高品質な画像を得ることができます。現在、かなり多くのテレビ・メーカーがこの技術の採用を検討しています。

今後採用が進むとみられるもう1つのコンセプトに、ハイブリッドAIシステムがあります。例えばフィットネス・バンドには、内蔵の心拍数アルゴリズムがAIを使用して異常を高い精度で検出し、この情報をクラウドに送信してニューラル・ネットワークで詳細に解析した上で適切に対処するといったものもあります。この種のテクノロジはすでに電力系統の負荷分散(特に電線の障害時や予期しない需要の増大時)に導入され、成果を上げています。このような応用例でクラウドへの高速かつ高信頼性ネットワークをサポートするには、アグリゲータにEthernetコネクティビティが必要です。

ボトルネックへの対処

人間の脳を完全に再現するのはまだ遠い先の話ですが、人間の脳は既にAIシステムを構築する効果的なモデルとして使われており、今も世界中の主要な研究機関でモデル化が続けられています。最新のニューラル・ネットワークは、この効率とコンピューティング機能を模倣しようと試みています。プロセッサとメモリーを密結合して人間の脳を再現しようとしたSoCアーキテクチャも登場しています。ARCサブシステムは、広く普及したRISCアーキテクチャにAPEX拡張機能を追加し、AIに必要な処理能力を備えると同時に、ペリフェラルとメモリーの両方をプロセッサに密結合して、メモリー・ボトルネックという重大な課題を解決します。

AI向けのDesignWare IP

AI、それも特にニューラル・ネットワークを利用したディープ・ラーニングは一生に一度あるかないかのテクノロジ開発です。AIはニューラル・ネットワークのアルゴリズムにおける革新、そして広帯域・高性能な半導体デザインの革新を組み合わせることにより、急速に発展してきました。

シノプシスは世界中のあらゆる市場分野で多くの主要なAI SoCプロバイダと協業しています。この経験は、実証済みの高信頼性IPソリューションを導入してリスクの軽減と開発期間の短縮、およびAIデザインの競争力強化を図る上で大きな成果を上げています。

シノプシスは多くの特化したプロセッシング・ソリューションに加え、メモリー・インターフェイスIP、メモリー・ボトルネックを解消するTCAMやマルチポート・メモリーなどをサポートしたオンチップSRAMコンパイラ、更にはリアルタイム・データに対応した幅広いコネクティビティ・オプションをご提供しています。これらのIPソリューションは、次世代AIデザインを構成する上で非常に重要な要素となります。

詳細情報

カテゴリートップ