バックナンバーはこちら

today&tomorrow

Technology Update

2018 vol.111

新時代のチップ設計に向けたシノプシスのビジョン

人工知能(AI)

AIは、最先端のスマート・システムの原動力として驚異的な成長を続けています。一口にAIと言っても、現在はさまざまな形態のマシン・ラーニング(ML)やディープ・ラーニング(DL)が幅広い分野で使われるようになっています。AIを人間に役立つ存在とするため、コンピューティング、ネットワーキング、モビリティ、デジタル・インテリジェンスの分野でハードウェアの技術革新が加速しています。AI関連の半導体市場は2025年には368億ドル規模に達すると予想されており[1]、世界全体でのAIによる経済効果は2030年に総額15.7兆ドルにのぼると見られています[2]

画像

図2:技術別に見たAIの収益

[1] 出典:Tractica社(2017年) [2] 出典:PwC社(2017年)

ディープ・ラーニングは、従来のように特定のタスクをアルゴリズムで実行するのではなく、データ表現を学習します。ディープ・ラーニングの応用分野としては、コンピュータ・ビジョン、音声認識、自然言語処理、オーディオ認識、ソーシャル・ネットワーク・フィルタリング、機械翻訳、バイオインフォマティクス、医薬品設計などがあります。これらのシステムでは、人間の専門家と同等か、場合によってはそれをしのぐ結果が得られることが実証されています。

ディープ・ニューラル・ネットワーク(DNN)は、非線形処理ユニットを多段接続していくつもの層を形成し、特徴抽出と変換を実行します。これらのシステムは少なくとも1つのCPUで制御しますが、ストリーミング・データには並列性があるため各種コプロセッサを補助的に使用します。DNNアルゴリズムは最適化したハードウェア上で実行する必要がありますが、何万ものサンプルを学習するには長い時間がかかり、数週間を要することもあります。このため、より高速かつ高効率なチップおよびSoCに対する需要が高まっています。

こうした膨大なデータの処理に最適なアーキテクチャの開発競争が今、世界規模で進行しています。第1世代システムは、標準CPUとGPUの組み合わせという形で汎用ハードウェアとアクセラレータを利用していました。現在の第2世代システムはオフザシェルフCPU、GPU、FPGA、DSPを組み合わせて利用しています。多数のGPUを並列に動作させることで低コスト化を図っていますが、非常に多くの電力を消費します。DSPブロックとローカル・メモリーを内蔵したFPGAの方が電力効率は優れていますが、全体的に高コストという問題があります。

画像

図3:ディープ・ラーニング処理の進化

現在は、学習時間の99%削減と10倍の電力効率を目標とした第3世代のカスタムASICの設計が進められています。これらのチップは推論の機能を備え、たとえばボールを追いかけている子供が道路に飛び出したときにどのようなハンドル操作をすれば最善の結果が得られるかを多数の選択肢から決定するといった実用的な判断を下します。これらのチップの性能と消費電力のバランスをとるには、機能を絞り込む、ローカル・デバイスとクラウドの間で処理を適切に分散させる、デザインのどこにボトルネックがあるかを把握するといった方法があります。

AIの実現方法は1つではありませんが、一般にこれらのチップは比較的構造化された処理を実行します。そのほとんどは線型代数で、使われるのは2つのベクトルのドット積(内積)などごくわずかな関数のみです。また、アルゴリズムの性質はフィードフォワード型に分類されます。

つまり、AI用チップは膨大な量のデータに対して種類の限られたごくわずかな計算を膨大な数のコア・インスタンス上で実行します。このようなチップで消費電力に最も大きな影響を与えるのが、データ移動です。

代表的なAI用チップは、高スループット(5 GHz以上のクロック周波数)、低消費電力(電力効率)、低レイテンシ(アーキテクチャ/面積効率)を特徴としたコアを数百(場合によっては数千)インスタンス集積した構造となっています。より多くの機能に対応するためにデータフロー・アーキテクチャと広帯域メモリーを採用し、デザインが大規模化しているため、7 nm~5 nm以降の先進ノードでの開発が必要です。

AIプロセッサ・コアは非常に重要なビルディング・ブロックで、数多くのインスタンスに複製されます。コア内部では多数のコネクティビティが必要なため、配線混雑が起こりやすくなります。こうしたオンチップの信号配線混雑を避けるには、モジュールを緊密に統合する必要があります。最高のPPA(性能、消費電力、面積)を達成するには、配置、最適化、配線がきわめて重要です。配置が完了した後の工程で、このように緊密に統合したモジュールの配置を変更するのは好ましくありません。したがって、フロー全体で収束性の高い共通の解析・最適化エンジンが必要となります。

これまで長年にわたり、プロセス微細化に頼って進歩を続けてきた産業界全体が今、AIを活用して新市場に参入することを考えるようになっています。これは設計チームにとって大きなチャンスであると同時に、ツールからIP、パッケージング、プロセス開発まで大規模な変革が必要となります。これはまさに半導体業界全体をリセットするような動きといえます。

IoT(Internet of Things)

IoT時代が本格的に到来すると、小型でスマートなガジェットが無数に使われるようになります。無線機能を内蔵したこれらのアプリケーションはマイクロコントローラで動作し、180~90 nm世代のミックスドシグナル・プロセスで製造されます。多くはバッテリで動作するため、この市場では低消費電力であることが特に重視されます。長時間アクティブな状態で使われる機器はダイナミック・パワー、99%の時間をスリープ状態で過ごすような機器はスタティック・パワーを削減することが重要な課題となります。

この分野で何よりも必要とされるのが、チップの消費電力目標を明確に記述する機能です。設計フローで使用するすべてのツールが電力の意図を一貫性のある形で解釈できなければ、デザインの収束は望めません。また、パワー・ネットワーク合成の品質に加え、低VTトランジスタを使用すること、および設計フロー全体で消費電力を考慮した包括的なインプリメンテーションを実施することも重要です。

電力の意図以外にも、効果的なパワー・マネージメントのためにはクロック/パワー・ゲーティング、マルチ電圧ドメイン、DVFS(Dynamic Voltage/Frequency Scaling)、基板バイアス、低電圧動作、チャネル長の異なるトランジスタの選択、マルチビット・レジスタなど数多くの設計メソドロジが必要となります。

カテゴリートップ