バックナンバーはこちら

today&tomorrow

What's New in DesignWare IP?

2018 Mar. vol.109

ADASアプリケーションを支えるディープ・ラーニングの進化

シーン分割とナビゲーション

ここまでは、ADASの一例として物体分類を利用して歩行者(あるいは自転車、自動車、トラックなど)を検出する衝突回避機能を見てきました。 CNNの性能が更に向上すると、イメージ内のすべてのピクセルを識別するシーン分割もCNNで実行できるようになります。 シーン分割の目標は、特定のピクセルを識別するというよりも、シーン内に存在する種類の異なる物体間の境界を識別することにあります。 さまざまな物体が混在するシーンの中でどこが道路なのかを見分けることができれば、カー・ナビゲーションに大きく役立ち、自動運転車の実現に一歩近づくことになります。

画像

図7:種類の異なる物体の境界を識別するシーン分割

実際にDesignWare EV61のCNNエンジンを使用して、11種類の物体(道路、空、建物、歩行者など)からなるストリーミング・イメージに対してシーン分割を実行した例があります。 入力には1920x1080のイメージを5チャネル使用し、800 MHzでCNNエンジンを動作させたところ、18 fpsのフレーム・レートを達成できました。 CNNエンジンに複数インスタンスの完全なイメージ・フレームを処理できる性能がないと、シーン分割の実行は困難です。

自動車の目となる今後のビジョン・プロセッサに求められる条件

ビジョン・プロセッシング・ソリューションは、将来的な処理性能向上の要求にスケーラブルに対応できなければなりません。現在の自動車に搭載されているカメラは1 MPの解像度が一般的です。 しかし自動車へのカメラの搭載が進むにつれ、1 MPから3 MP、更には8 MPへと解像度の要求が上がっています。カメラの解像度が高い方が、より遠くにある物体を検出できます。 理由は簡単で、前方に歩行者などの物体が存在するかどうかをより多くのビット解析結果に基づいて判定できるためです。もう1つ重要なのがカメラのフレーム・レート(fps)です。 フレーム・レートが高い方がレイテンシが小さく、より手前からブレーキ操作を開始できます。15 fps の1 MP RGBカメラなら1280x1024(ピクセル/フレーム)x15(フレーム/秒)x3(色数)=約59 MB/sの処理で十分ですが、 30 fpsの 8 MP RGBカメラになると3264x2448(ピクセル/フレーム)x30(フレーム/秒)x3(色数)=約720 MB/sの処理が必要となります。

このように処理性能を引き上げようとすると、それ以上に消費電力またはダイ面積が増大してしまいます。自動車も消費財である以上、低価格化の要求に応える必要があります。 また、低消費電力であることも非常に重要です。ビジョン・プロセッサは消費電力を抑えるように最適化すると同時に、プログラマビリティを維持したアーキテクチャとする必要があります。

まとめ

自動車のADAS機能に対する要求は高まる一方で、これに応えるにはエンベデッド・ビジョンおよびディープ・ラーニング・テクノロジが鍵となります。 初期の物体検出は画像の一部のみの識別にとどまっていましたが、今ではすべてのピクセルを処理してシーン全体を解釈できるようになっています。 今後も、性能、消費電力、面積と同じくらい重要な要素として、柔軟性が引き続き求められることになります。完全にプログラマブルなシノプシスの DesignWare EV6xエンベデッド・ビジョン・プロセッサは、 今後登場する新しいグラフにも対応でき、少ない面積と消費電力で高い性能を発揮します。

カテゴリートップ