为什么要在边缘设备上部署AI

Fergus Casey, Gordon Cooper

Apr 28, 2025 / 1 min read

Figure 1: Example Image Description

Synopsys IP Technical Bulletin

In-depth technical articles, white papers, videos, webinars, product announcements and more.

过去十年间,人工智能(AI)和机器学习(ML)领域发生了巨大的变化。卷积神经网络(CNN)和循环神经网络(RNN)逐渐被Transformer和生成式人工智能(GenAI)所取代,这标志着该领域进入了一个全新的发展阶段。这一转变源于人们需要更准确、高效且具备上下文理解能力、能处理复杂任务的模型。

起初,AI和ML模型在执行音频、文本、语音和视觉处理等任务时,高度依赖数字信号处理器(DSP)。这些模型虽有一定成效,但在准确性和可扩展性方面存在局限。神经网络,尤其是CNN的出现,带来了重大突破,大幅提升了模型的准确率。比如,AlexNet作为开创性的CNN,在图像识别方面的准确率达到了65%,超越了DSP的50%。

Transformer的诞生带来了又一次重大突破。2017年,谷歌在论文《Attention is All You Need》中提出了该模型,凭借更高效的序列数据处理方式,在该领域掀起了一场革命。与局部处理数据的CNN不同,Transformer使用注意力机制来评估输入数据不同部分的重要性,能够捕捉数据中的复杂关系与依赖,在自然语言处理(NLP)和图像识别等任务中展现出卓越的性能。

Transformer推动了GenAI的兴起。GenAI借助这些模型,可以依据学习到的模式生成新数据,例如文本、图像甚至音乐。Transformer能够理解和生成复杂数据,因此成为ChatGPT和DALL-E等热门AI应用的基础。这些模型已展现出卓越能力,比如生成逻辑连贯的文本、根据文字描述生成图像,充分彰显了GenAI的巨大潜力。

图1:Transformer正在取代计算机视觉和RNN/CNN,助力GenAI实现更高的准确度

为何要在边缘设备上部署GenAI

对于实时处理、隐私和安全要求极高的应用来说,在边缘设备上部署GenAI具有显著优势。智能手机、物联网设备和自动驾驶汽车等边缘设备,都能从GenAI的强大能力中获益。

在边缘设备上部署GenAI的主要原因之一,是对低延迟处理的需求。自动驾驶、实时翻译、语音助手等应用需要即时响应,云端处理的延迟会严重影响其响应速度。直接在边缘设备上运行GenAI模型,能最大限度地减少延迟,确保响应快速可靠。

隐私和安全也是重要的考虑因素。将敏感数据传到云端进行处理,存在数据泄露和未经授权访问的风险。通过在边缘设备上部署GenAI,数据处理始终在设备本地进行,这既能增强隐私保护,又能降低安全漏洞风险。这在数据处理需格外谨慎的应用中尤为关键,例如医疗健康应用中的患者数据处理。

网络连接受限也是推动在边缘设备上部署GenAI的因素。在互联网接入不可靠的偏远或欠发达地区,搭载GenAI的边缘设备可以脱离云连接独立运行,确保功能持续可用。这对灾难救援等可能缺乏可靠通信基础设施的应用场景至关重要。

应对边缘设备上部署GenAI的挑战

在边缘设备上部署GenAI好处众多,但也面临多种挑战,必须克服这些挑战,才能确保其有效实施与运行。这些挑战主要涉及计算复杂性、数据要求、带宽限制、功耗和硬件约束。

GenAI模型的计算复杂性是一大挑战。Transformer作为GenAI模型的基础,因其注意力机制和大规模矩阵乘法运算,计算量极大。这些运算需要强大的处理能力和大量内存,给边缘设备有限的计算资源带来沉重压力。此外,边缘设备常常需要实时处理,尤其是在自动驾驶或实时翻译等应用中。GenAI模型对算力的高要求,使得在边缘设备上实现所需的速度和响应能力困难重重。

表1:GenAI模型(包括大语言模型(LLM)和图像生成器)的参数量明显大于CNN

数据要求也带来了巨大挑战。训练GenAI模型需要海量数据。例如,GPT-4等模型训练使用了数TB的数据,要在存储和内存容量有限的边缘设备上处理和存储这些数据,根本不现实。即便在推理阶段,为生成准确且相关的输出,GenAI模型也可能需要大量数据。受存储限制,在边缘设备上管理和处理这些数据颇具挑战性。

带宽限制让GenAI在边缘设备上的部署变得更为复杂。边缘设备通常使用低功耗内存接口,如低功耗双倍数据速率(LPDDR)内存,其带宽低于数据中心使用的高带宽内存(HBM)。这会限制边缘设备的数据处理能力,从而影响GenAI模型的性能。在内存和处理单元之间高效传输数据,对GenAI模型的性能至关重要。有限的带宽会妨碍这一过程,导致处理时间延长、效率降低。

功耗是在边缘设备上部署GenAI的又一关键问题。GenAI模型因计算需求大,耗电量高。这对依靠电池供电的边缘设备,如智能手机、物联网设备和自动驾驶汽车等,是个严重问题。高功耗会导致发热增加,因此需要有效的热管理解决方案。在紧凑的边缘设备进行散热管理难度大,还可能影响设备寿命和性能。

硬件约束同样是在边缘设备上部署GenAI的一大挑战。与数据中心服务器相比,边缘设备的处理能力通常有限。选择既能满足GenAI的需求、又能兼顾低功耗和高性能的合适处理器至关重要。边缘设备有限的内存和存储容量,限制了可部署GenAI模型的规模和复杂性。因此,必须开发能在这些约束条件下运行且性能不受影响的优化模型。

模型优化对于应对这些挑战至关重要。模型量化(降低模型参数精度)和剪枝(去除冗余参数)等技术,可帮助降低GenAI模型的计算和内存需求。不过,在采用这些技术时需要谨慎,以保证模型的准确性和功能性。开发专门针对边缘部署优化的模型,能帮助应对部分挑战。这需要创建GenAI模型的轻量级版本,使其能在边缘设备上高效运行,同时不降低性能。

软件和工具链支持也很关键。在边缘设备上高效部署GenAI,离不开支持模型优化、部署和管理的强大软件工具和框架。确保与边缘硬件兼容并提供高效的开发流水线至关重要。优化推理过程以缩短延迟并提高效率,对实时应用非常重要。这涉及微调模型并利用硬件加速器实现最佳性能。

安全和隐私问题也必须得到妥善解决。确保边缘设备所处理数据的安全性极为重要。采用鲁棒的加密技术和安全的数据处理做法,是保护敏感信息的关键。在边缘设备上本地处理数据,可最大限度地减少将敏感数据传到云端的需求,有助于解决隐私问题。但同时,也要确保GenAI模型本身不会无意中泄露敏感信息。

通过精心挑选硬件、优化模型并利用先进软件工具来应对这些挑战,可让边缘设备部署GenAI变得更加可行和有效。这将使众多应用受益于GenAI的强大能力,同时保留边缘计算的优势。

边缘GenAI的处理器选择

在边缘设备上运行GenAI,选择合适的嵌入式处理器对于克服上述挑战至关重要。选择时必须兼顾计算能力、功耗和处理各种AI工作任务的灵活性。

GPU和CPU灵活性高且可编程,适用于广泛的AI应用。但从功耗角度看,它们可能并非边缘设备的最佳选择。尤其是GPU,耗电量大,对电池供电的设备不太友好。

ASIC是针对特定任务优化的硬连线解决方案,具有高能效和高性能。然而,它缺乏灵活性,难以适应不断发展的AI模型和工作任务。

神经处理单元(NPU)在灵活性和能效之间取得了平衡。NPU(包括新思科技ARC NPX NPU IP)专为AI工作任务设计,针对矩阵乘法和张量运算等运行GenAI模型的关键任务,能实现优化的性能。NPU解决方案可编程且功耗低,适合边缘设备。

图2:CPU、GPU、NPU和ASIC在边缘AI/ML中的表现比较。NPU除了可编程性和易于使用之外,还拥有最高效的处理能力

例如,在NPU上运行Stable Diffusion等GenAI模型仅需2瓦电力,而在GPU上运行则需200瓦,节能效果显著。NPU还支持混合精度算法和内存带宽优化等高级功能,对满足GenAI模型的计算需求至关重要。

结语

向Transformer和生成式人工智能(GenAI)的过渡,是人工智能(AI)和机器学习(ML)领域的重大进步。这些模型性能卓越、功能多样,支持从自然语言处理到图像生成的广泛应用。在边缘设备上部署GenAI能够开启新的可能,提供低延迟、安全、可靠的AI能力。

然而,要充分发挥边缘GenAI的潜力,必须克服计算复杂性、数据要求、带宽限制和功耗等挑战。选择NPU等合适的处理器,能为边缘应用提供兼顾性能与能效的平衡解决方案。

随着AI持续发展,GenAI在边缘设备上的集成将发挥关键作用,有助于推动创新并扩大智能技术的应用范围。通过克服这些挑战并利用先进处理器的优势,我们将为AI全面融入日常生活的美好未来铺平道路。

Subscribe to the Synopsys IP Technical Bulletin

Includes in-depth technical articles, white papers, videos, upcoming webinars, product announcements and more.

Continue Reading