人工智能片上系统的DNA

作者:Ron Lowman,新思科技产品营销经理

在过去十年间,几项技术的进步使人工智能 (AI) 成为我们一生中最令人振奋的技术之一。 2012年,Geoffrey Everest Hinton在Imagenet挑战赛中展示了他的广义反向传播神经网络算法,该算法使计算机视觉领域发生了革命性的变化。然而,数学在2012年之前的许多年已开发出来,而且如Nvidia GTX 580图形处理器单元等可用的微处理器使这一里程碑得以实现。这些处理器具有相对较高的内存带宽能力,并且非常擅长矩阵乘法,可将该神经网络模型的AI训练时间缩短到大约一周。这种数学和处理能力的结合最近开启了新一代技术进步,带来了与AI相关的全新可能性。本文概述了人工智能设计的新时代及其多样化的处理、内存和连接需求。

人工智能剖析

我们将神经网络定义为深度学习,它是机器学习的一个子集,也是人工智能的一个子集,如图1所示。这是一个重要的分类,因为并非人工智能,或者更具体地说是机器学习,而是深度学习该子集改变了芯片系统 (SoC) 架构设计。

图1:人工智能采用深度学习算法模仿人类行为

深度学习不仅改变了SoC的构成,而且催生了半导体市场的新一代投资。深度学习算法模型在研发社区和商业投资领域中被大量使用,例如卷积神经网络 (CNN)。CNN一直是机器视觉的主要焦点。递归神经网络等模型因其识别时间的能力而在自然语言理解中得到应用。

人工智能应用

深度学习神经网络用于许多不同的应用,为使用它们的人提供了强大的新工具。例如,它们支持高级安全威胁分析、预测和防止安全漏洞,并通过预测潜在买家的购物流程而帮助广告商识别和精简销售流程。这些是在服务器群组中运行的数据中心应用的两个示例,其中采用了最新的GPU和AI加速器半导体技术。

但AI设计并未局限在数据中心。诸如用于对象和面部检测的视觉系统、用于改进的人机接口的自然语言理解以及周围环境感知等许多新功能可基于传感器输入的组合而使得设备理解正在发生的活动而成为可能。这些深度学习能力在所有市场中已结合到SoC中,包括汽车、移动、数字家庭、数据中心和物联网 (IoT),如图2所示。

图2:AI处理能力已结合到大量应用中

手机利用神经网络实现上述多种AI功能。手机可运行面部识别应用、对象识别应用、自然语言理解应用。此外,它在内部使用神经网络进行5G自组织,因为无线信号在许多其他介质、许多不同的光谱上变得更密集,而且所传输的数据有不同的优先级。

人类大脑

深度学习通过数学和半导体硬件的进步最近才开始变得可行。业界已开展多项举措,在下一代数学模型和半导体架构中更好地复制人脑。这通常被称为神经形态计算。人类的大脑具有难以置信的高效率,而技术在复制人类大脑方面的工作上才刚开始触及皮毛。人类大脑包含超过1 PB的存储空间,相当于大约540万亿个晶体管,而功率小于12瓦。从这一方面来说,复制大脑是一个长远的目标。然而,ImageNet挑战赛已从2012年的第一个反向传播CNN算法发展到2015年更高级的AI模型,称为ResNet 152,其错误率要低于人类。市场正在快速发展,新的算法不断发布,而且半导体通过迅速整合所需的功能而超越竞争对手。

AI设计挑战

融合深度学习能力的SoC架构促使了多项关键改变。这些设计方面的更改导致了高度独特的解决方案和更通用的AI SoC设计,并且包含专业处理需求、创新的内存架构和实时数据连接。

专业处理

融合神经网络能力的SoC必须同时适应异构和大规模并行矩阵乘法运算。异构组件需要标量、矢量DSP和神经网络算法能力。例如,机器视觉需要独立的步骤,每一步都需要执行不同类型的处理,如图3所示。

图3:神经网络能力需要独特的处理

预处理需要更简单的数据级并行性。对所选区域的精确处理需要更复杂的数据级并行性,可以通过具有良好矩阵乘法运算能力的专用CNN加速器有效地处理。决策阶段通常可以通过标量处理的方式来处理。每个应用都是独一无二的,但很明显的是,包括神经网络算法加速的异构处理解决方案需要有效地处理AI模型。

内存性能


AI模型使用大量内存,这增加了硅片的成本。训练神经网络可能需要几GB到10 GB的数据,这需要使用DDR最新技术,以满足容量要求。例如,作为图像神经网络的VGG-16在训练时需要大约9GB的内存。更精确的模型VGG-512需要89GB的数据才能进行训练。为了提高AI模型的准确性,数据科学家使用了更大的数据集。同样,这会增加训练模型所需的时间或增加解决方案的内存需求。由于需要大规模并行矩阵乘法运算以及模型的大小和所需系数的数量,这需要具有高带宽存取能力的外部存储器。新的半导体接口IP,如高带宽存储器 (HBM2) 和未来的衍生产品 (HBM2e),正被迅速采用,以满足这些需求。先进的FinFET技术支持更大的芯片上SRAM阵列和独特的配置,具有定制的存储器到处理器和存储器到存储器接口,这些技术正在开发中,目的是更好地复制人脑并消除存储器的约束。

AI模型可以压缩。这种技术是确保模型在位于手机、汽车和物联网应用边缘的SoC中受限的存储器架构上运行所必需的。压缩采用剪枝和量化技术进行,而不降低结果的准确性。这使得传统SoC架构(具有LPDDR或在某些情况下没有外部存储器)支持神经网络,然而,在功耗和其他方面需要权衡。随着这些模型的压缩,不规则的存储器存取和不规则的计算强度增加,延长了系统的执行时间和延迟。因此,系统设计人员正在开发创新的异构存储器架构。

实时数据连接

一旦AI模型经过训练并可能被压缩,就可以通过许多不同的接口IP解决方案执行实时数据。例如,视觉应用由CMOS图像传感器支持,并通过MIPI摄像头串行接口 (CSI-2) 和MIPI D-PHY IP连接。LiDAR和雷达可通过多种技术支持,包括PCI Express和MIPI。麦克风通过USB、脉冲密度调制 (PDM) 和I2S等连接传输语音数据。数字电视支持HDMI和DisplayPort连接,以传输视频内容,而这些内容可通过神经网络传输后得到改善,实现超高图像分辨率,从而以更少的数据生成更高质量的图像。许多(甚至是大多数)电视制造商正在考虑部署这项技术。

混合AI系统是另一个预计会大量采用的概念。例如,心率算法通过健身带上的AI识别异常,甚至误报,该健身带可将信息发送到云端,用于对异常进行更准确的深入AI神经网络分析,并提示适当的动作。这类技术已经成功地用于电网负载的平衡,特别是在电线中断或出现意外重负荷的情况下。为了支持快速、可靠的网络与云端连接,上述示例中的聚合器需要以太网连接。

消除瓶颈

尽管复制人类大脑还有很长的路要走,但人类大脑已被用作构建人工智能系统的有效模型,并继续由全球领先的研究机构建模。最新的神经网络试图复制效率和计算能力。SoC架构也刚刚开始通过紧密耦合处理器和内存而复制人类大脑。ARC子系统包括AI及其APEX扩展和普遍存在的RISC架构所需的处理能力。子系统将外设和存储器紧密耦合到处理器,以消除关键的存储器瓶颈问题。

用于AI的DesignWare IP

AI是一生中难得遇到一次的技术发展,特别是深度学习神经网络。它通过结合神经网络算法的创新以及高带宽、高性能半导体设计的创新而飞速发展。

新思科技正在与世界各地各个市场细分中许多领先的AI SoC供应商合作。这种经验对于采用经过验证的可靠IP解决方案非常有价值,能够降低风险,加快产品上市速度,并为AI设计人员带来关键的差异化优势。

新思科技提供了许多专业处理解决方案,包括存储器接口IP、带有TCAM和多端口存储器的芯片SRAM编译器等多种选择,用于消除存储器瓶颈,同时提供了全面的实时数据连接选项。这些IP解决方案是下一代AI设计的关键组件。

 

了解更多信息: