<
头闻号

石家庄市茂丰化工有限公司

通用无机试剂|促进剂|防老剂|硫化剂|填充剂|化工产品加工

首页 > 新闻中心 > Arm打破边缘AI“次元壁”:Armv9边缘AI计算平台重塑物联网未来格局
Arm打破边缘AI“次元壁”:Armv9边缘AI计算平台重塑物联网未来格局
更新时间:2025-03-31 14:42:34        发布时间:2025-03-05 12:02:53    浏览次数:10        返回列表

2025年2月27日,全球领先的 IP 计算平台公司Arm举办媒体沟通会,并正式推出全球首个Armv9边缘人工智能(AI)计算平台,以全新Cortex-A320 CPU与Ethos-U85 NPU为核心,为物联网(IoT)领域带来颠覆性突破。该平台专为边缘AI场景优化,支持运行超10亿参数的大语言模型(LLM),比去年的基于 Cortex-M85 搭配 Ethos-U85 的平台提升了八倍的 ML 计算性能,带来了显著的 AI 计算能力突破,标志着边缘计算正式迈入“高智能、超安全、强能效”的新纪元。

本文引用地址:

作为

v9架构在边缘计算领域的首秀,本次发布的平台由两大核心组件构成。

Cortex-A320 CPU:全球最小型、最高能效的Armv9-A处理器,专为物联网设备打造。其集成SVE2(可伸缩向量扩展)指令集,标量计算性能较前代Cortex-A35提升30%,ML推理能力相较于前代提升了10倍;支持BF16、INT8等AI专用数据类型,矩阵乘法指令显著加速神经网络处理。

Ethos-U85 NPU:与上一代产品相比,Ethos-U85 性能提升四倍,能效提高 20%,同时,其 MAC 单元可从 128 个扩展到 2048 个(在 1GHz 时,算力实现 4 TOPs),能够为诸如工厂自动化和商用或智能家居摄像头等需要更高性能的应用提供有力的支持。此外,Ethos-U85 支持 Transformer 架构和卷积神经网络 (CNN) 以实现 AI 推理。

二者协同可运行超10亿参数的端侧模型,满足工业自动化、智能摄像头、自动驾驶等场景对实时性与隐私性的严苛需求。Arm高级副总裁兼物联网事业部总经理Paul Williamson表示:“AI 的革新已不再局限于云端。随着世界的互联和智能化水平的日益提升,从智慧城市到工业自动化,在边缘侧处理 AI 工作负载不仅带来显著的优势,其必要性更是不可或缺。专为物联网打造的 Armv9 边缘 AI 计算平台的推出,标志着这一发展趋势迈入了重要的里程碑。”

如今,智慧城市和工业智能制造对边缘计算的实时性、低延迟以及可靠性提出了极高要求。那么,Arm此次发布的边缘AI计算平台针对这些需求有哪些设计?Arm物联网事业部业务拓展副总裁马健(Chloe Ma)对此表示,在实时性方面,全新的边缘AI计算平台提供了有力支持。因边缘AI芯片处理能力不足,与监控相关的视频常需返回云端处理,导致实时性大打折扣。除了与全新Cortex-A320 CPU搭配之外,Ethos-U85 NPU还能与最高性能的Cortex-X925搭配,这样的灵活组合大幅提升了边缘算力。在视频、多模态等大量数据处理场景下,AI处理能在边缘进行,大大提高了应用实时性。

在可靠性方面,Arm的CPU经过了大量量产验证。马健指出,过去30年,Arm合作伙伴基于Arm架构的芯片出货量超3000亿,2021年近300亿颗基于Arm架构的年度芯片出货量中,近200亿颗被部署到物联网和嵌入式应用中。这得益于其设计过程中完善的验证机制,为产品质量和可靠性提供了保障。

此次Armv9架构的引入,为边缘设备带来安全性、性能、能效三大维度的革新。

·极致安全性

内存标记扩展(MTE):实时检测并显著减少内存安全漏洞,对提升系统安全性有重要作用。

指针验证(PAC)与分支目标识别(BTI):确保代码执行路径安全,抵御控制流攻击。

Secure EL2虚拟化:实现虚拟机间硬件级隔离,满足多租户边缘场景的安全需求。

·性能飞跃

增强的 Neon 和可伸缩向量扩展(SVE2)技术:提供更高效的 ML 计算能力。

新增矩阵乘法指令:优化AI和ML计算性能,加速神经网络推理和训练任务。

·能效突破

通过窄取和解码数据路径、密集存储的 L1 缓存、缩减端口的整数寄存器文件等等微架构优化,Cortex-A320能效较Cortex-A520提升了50% 以上。得益于Armv9 架构所实现的显著 ML 性能提升,在 2GHz 频率下运行,以 8 位 MAC/周期测得,四核 Cortex-A320 可以执行高达 256 GOPS。因此,无需外部加速器,Cortex-A320 便可直接在 CPU 上运行高级 ML 和 AI 用例。

针对边缘AI开发痛点,Arm此次还将Kleidi扩展到物联网领域。Kleidi已集成到Llama.cpp、ExecuTorch等主流框架,加速了 meta Llama 3 和 Phi-3 等关键模型的性能。例如,在 Llama.cpp 上运行微软的 Tiny Stories 数据集时,KleidiAI 为新的 Cortex-A320 带来了高达 70% 的性能提升。Kleidi让开发者摆脱硬件适配桎梏,专注于创新本身。此外,新的边缘 AI 计算平台具备支持多种操作系统的能力,无论是如 FreeRTOS 和 Zephyr 的实时操作系统 (RTOS),还是如 Linux 和 Android 的功能丰富的操作系统,都能提供高效支持,让超2000万开发者无缝迁移现有工具链。

此外,Armv9 边缘AI计算平台获得了全球产业链领军企业的高度认可。例如,亚马逊云科技表示,Arm边缘AI计算平台为其客户实现在Armv9技术上运行AWS IoT Greengrass的轻量级设备运行时环境—— Nucleus Lite,让边缘设备以最低的内存需求高效运行;西门子认为,基于 Armv9 架构的全新边缘 AI 计算平台有助于其将高度安全、高性能和高能效的 AI 创新产品组合扩展到所有客户,涵盖一系列工业、智能基础设施和移动应用;瑞萨电子称,Cortex-A320不仅在 AI/ML 高性能和安全性方面表现出色,还显著优化了功耗和面积效率。这一突破有助于瑞萨电子加快创新步伐,进一步提升效率和可扩展性。

总体而言,随着生成式AI向边缘渗透,物联网领域正在迎来前所未有的机遇与生机。Arm 所发布的全新平台不仅仅是一次渐进式的升级,更是为未来边缘计算和 AI 处理提出了新的范式。