芯片能否跟上边缘 AI 算法?

新思科技IP 战略营销经理 Ron Lowman

 

AI 成功与否的终极衡量标准是能在多大程度上提高我们日常生活中的效率。然而,该行业在评估进展方面面临巨大挑战。大量 AI 应用不断流失:寻找正确的算法、优化算法以及寻找正确的工具。此外,复杂的硬件工程正在迅速更新,并采用许多不同的系统架构。

近年来的 AI 硬件难题

2019 年斯坦福大学的一份报告指出,AI 加速发展的速度要快于硬件的发展速度。“在 2012 年之前,AI 结果对摩尔定律的遵循度极高,计算能力每两年翻一番……,但在 2012 年之后,计算能力每 3.4 个月就翻一番。”

自 2015 年 AI 算法在对象识别方面战胜人为错误以来,对 AI 硬件的大量投资推动半导体 IP, 加快了下一代处理和存储器的速度,并实现了更高的带宽接口,从而紧紧跟上 AI 算法的步伐。图 1 显示了 2012 年引入反向传播和现代神经网络,并与 NVIDIA 的重型计算 GPU 引擎相结合后,AI 竞争如何快速发展。

2012 年引入现代神经网络后,分类错误迅速减少,并迅速战胜人为错误结果

图 1:在 2012 年引入现代神经网络后,分类错误迅速减少,并迅速超越人为错误结果。

AI 算法

AI 算法太大,要求太高,无法在专为低功耗、小面积和低成本的消费品设计的 SoC 上执行。因此,使用修剪和量化等技术来压缩 AI 算法。这些技术使系统需要的内存和计算量更少,但会影响准确性。工程上面临的挑战是:实施压缩技术而不影响应用所需的精度。

除了 AI 算法复杂性的提升之外,由于输入数据的增加,推理所需的数据量也急剧增长。图 2 显示了优化的视觉算法所需的内存和计算,该算法设计为相对较小的 6MB 内存占用空间(SSD-MobileNet-V1 的内存要求)。如您所见,在这个特定示例中,更大的挑战不是 AI 算法的大小,而是数据输入的大小。随着像素大小和颜色深度的增加,最新的图像捕获中的内存要求已从 5MB 增加到 400MB 以上。如今,最新的三星手机 CMOS 图像传感器摄像头支持高达 108MP。理论上,这些摄像头在 30fps 和超过 1.3GB 内存下可能需要 40 TOPS 的性能。ISP 中的技术以及 AI 算法中特殊的感兴趣区域,已限制了对这些极限的要求。40 TOPS 性能尚无法在手机上实现。但此示例强调了边缘设备的复杂性和挑战,并且也正在推动传感器接口 IP 的发展。MIPI CSI-2 具有感兴趣区域功能, 专门用来解决这个问题,MIPI C/D-PHY 继续增加带宽,以处理驱动数亿像素的最新 CMOS 图像传感器数据大小。

SSD-MobileNet-V1 的要求,按像素大小计算,设计为 6MB 内存 基准测试结果

图 2:SSD-MobileNet-V1 的要求,按像素大小计算,设计为 6MB 内存 基准测试结果

 

如今的解决方案压缩 AI 算法,压缩图像,并专注于感兴趣区域。这使得硬件优化变得极其复杂,尤其是对于内存有限、处理有限且功耗预算较小的 SoC。

许多客户对他们的 AI 解决方案进行基准测试。现有 SoC 采用多种不同方法进行基准测试。每秒万亿次运算 (TOPS) 是性能的一个主要指标。此外,性能和功率测量可以更清楚地了解芯片能力,例如芯片可以处理的运算的类型和质量。每秒推理数也是一个主要指标,但需要了解频率和其他参数。因此,开发了额外的基准测试来评估 AI 硬件。

MLPerf/ML Commons 和 ai.benchmark.com 提供此类标准化基准测试。ML Commons 提供与准确性、速度和效率相关的测量规则,这对了解硬件处理不同 AI 算法的能力非常重要。如前所述,在不了解准确性目标的情况下,压缩技术可用于将 AI 融入非常小的占地空间中,但准确性与压缩方法之间存在权衡取舍。ML Commons 还提供通用数据集和最佳实践。

位于瑞士苏黎世的 Computer Vision Lab 还提供移动处理器的基准测试,并发布其结果和硬件要求以及支持重复使用的其它信息。这包括 78 项测试和逾 180 个性能方面的基准。

斯坦福大学的一个有趣的基准测试叫做 DAWNBench,为 ML Commons 的工作提供了支持,但这些测试本身不仅解决了 AI 性能评分问题,还解决了处理器执行 AI 算法训练和推理的总时间问题。这解决了硬件设计工程目标的一个关键方面,即降低整体拥有成本或总拥有成本。AI 处理时间,决定了云端 AI 租赁或边缘计算的硬件所有权,对于组织的整体 AI 硬件策略更有用。

另一种流行的基准测试方法,是利用常见的开源图形和模型,例如 ResNET-50。其中一些模型有以下三个问题。首先,遗憾的是,ResNET-50 的数据集为 256x256,这不一定是最终应用中可能使用的分辨率。其次,该模型较旧,层数少于许多较新模型。第三,模型可以由处理器 IP 供应商手动优化,但这并不代表系统将如何与其他模型一起执行。但是,除了 ResNET-50 之外,还有大量可用的开源模型,它们可能更能代表该领域的最新进展,并为性能提供良好的指标。

最后,针对特定应用的定制图形和模型变得越来越普遍。理想情况下,这是对 AI 硬件进行基准测试并确保能够有效进行优化以降低功耗和提高性能的最佳方案。

SoC 开发人员都有非常不同的目标,因为有些 SoC 希望为高性能 AI 提供平台,有些 SoC 希望为较低性能提供平台,有些 SoC 希望为各种功能提供平台,而其他 SoC 希望为非常特定的应用提供平台。对于不知道需要优化哪种 AI 模型的 SoC,自定义模型和开放可用模型的良好组合,可以很好地指示性能和功耗。这种组合在当今市场中最常用。然而,在 SoC 进入市场后,上述较新的基准测试标准的出现,似乎在比较中具有一定的相关性。

硅片设计之前的评估

鉴于边缘优化的复杂性,当今的 AI 解决方案必须协同设计软件和硬件。为此,它们必须利用正确的基准测试技术,如前面概述的那些技术。同时还必须有工具支持,从而使设计人员能够准确探索系统、SoC 或半导体 IP 的不同优化,调查工艺节点、存储器、处理器、接口等。

新思科技在某些情况下提供有效的工具,来对 IP、SoC 和更广泛的系统进行模拟、原型验证和基准测试。

新思科技HAPS® 原型验证解决方案通常用于展示不同处理器配置的能力和权衡。特别是,新思科技已经证明,除了处理器之外,更广泛的 AI 系统的带宽在什么情况下开始成为瓶颈,并且传感器输入(通过 MIPI)或存储器访问(通过 LPDDR)的更多带宽在什么时候可能不是处理任务的最佳带宽。

对于功率模拟,供应商的估计可能迥异,并且此模拟已被证明优于 AI 工作负载的模拟和/或静态分析。这就是 新思科技ZeBu® 仿真系统发挥重要作用的地方。

最后,可以通过 Platform Architect 探索 SoC 设计的系统层面。Platform Architect 最初用于内存、处理性能和功耗探索,最近越来越多地用于了解 AI 的系统级性能和功耗。使用预构建的 LPDDR 、ARC 处理器模型用于 AI、存储器等,可以进行灵敏度分析,以确定最佳设计参数。

总结

AI 算法正在不断推动硬件变化,随着这些技术从云迁移到边缘,需要优化的工程问题变得更加复杂。为确保竞争成功,硅片设计之前的评估变得越来越重要。软硬件协同设计已经成为现实,正确的工具和专业知识至关重要。

新思科技拥有成熟的 新思科技IP产品组合,这些产品组合正在用于许多 AI SoC 设计。新思科技拥有一支经验丰富的团队,负责开发从 ASIP Designer 到 ARC 处理器的 AI 处理解决方案。包括内存编译器在内的经过验证的基础 IP 产品组合已广泛应用于 AI SoC。AI 应用的接口 IP 范围从传感器输入到 I3C 和 MIPI,再到通过 CXL、PCIe 和 Die to Die 解决方案的芯片到芯片连接,以及通过以太网的网络功能。

最后,利用专业知识、服务和成熟的 IP,新思科技工具可以为客户提供最适合的方法,在不断变化的情况下优化 AI 硬件。