随着 AI 智能手机和 AI PC 成为 2024 消费电子领域的热门趋势,移动设备从生产力到娱乐游戏,都开始发力 AI。移动计算领域巨头 Arm 率先投入了这场变革,表示现在正是移动设备行业的关键时刻,端侧 AI 重新定义了智能手机的“智能性”,而 Arm 正是幕后推动变革的基石。
在近期举办的 Arm 技术媒体分享日上,多位 Arm 技术大咖亲临现场,向大家讲解了全新的 Arm 计算平台 ——Arm CSS for Client(Arm 终端计算子系统),其中包括最新的 CPU、GPU 和软件产品。IT之家有幸参与了此次活动,并感受到 Arm 正在进行的深刻变革。
Arm 终端 CSS:赋能 AI 计算新高度
谈及 Arm 终端 CSS,Arm 终端事业部产品管理总监 Steve Hopper 先生分析了市场驱动因素需要 Arm 如何做出改变。移动互联时代,人们使用智能手机的时间正在快速增长,个人每天平均使用时长来到 5 小时,移动设备在生活中的时间占比越来越高,因此人们对这些设备的需求点和体验都在上升。
在手机上,很多典型使用场景都需借助强大的计算能力来实现,如大型游戏的光线追踪、相机的计算摄影技术等。现在有了 AI,这些场景的使用体验将被推到一个新的高度,这其中生成式 AI 将革新移动端生产力,重塑手机摄影、多媒体制作方式和效率,AI 图形增强将推动手游技术迭代,带来更加个性化的视觉和交互体验。
想要实现这些突破性的体验,全新的计算平台能力必不可少,由此也会引发移动平台的多层次变革:
-
应用上,AI 应用会在模型大小和精度间寻求平衡,确保移动设备的性能达到理想状态
-
框架上,弹性框架体系的部署更有利于适应运营商、网络和其它功能的升级
-
交互上,突破触摸屏的交互局限,发掘包含语音、视觉输入在内的多模态交互潜力
-
计算上,计算系统需要显著提升处理吞吐量和大幅降低延迟,应对复杂的生成式 AI 工作负载
-
内存上,高带宽、高密度、低延迟、低能耗对移动端 AI 的运行效率至关重要,
-
内存系统上,在功率有限的移动设备上运行数十亿参数的生成式 AI 模型,也必须优化内存拓扑
基于这些市场因素,终端 CSS 的创新将聚焦于实现平台能力的重大飞跃,提供更加极致的移动体验,由此带来的新特性和提升非常可观。
首先终端 CSS 是 Arm 最快的安卓平台,它采用最新 Armv9.2 CPU 集群,集成了 Arm 目前最高性能的 Arm Cortex-X925 CPU、最高效的 Cortex-A725 CPU 和更新后的 Cortex-A520 CPU。与去年发布的 TCS23(Arm 2023 全面计算解决方案)相比:
-
峰值图形性能平均提升幅度高达 30%
-
前十应用中,应用启动提速约 33%
-
Llama 3 LLM 和 Phi-3 LLM 的 AI 大模型性能分别提升 46% 和 42%
-
网页浏览速度提升 60%
Arm 终端 CSS 在计算摄影和 AI 摄像头等方面也有不小的升级,如采用 Cortex-X925 CPU 时,焦外成像性能提升了 24%,不影响电池续航,就能获得更快、更流畅的焦外成像体验。
AI 推理上,基于新一代 Arm CPU 和 GPU 的升级,Arm 终端 CSS 的推理能力大幅提升。与 Cortex-X4 相比,使用 Cortex-X925 CPU 时,推理速度加快 59%;与 2023 年 Arm 参考平台中的 Immortalis-G720 相比,使用 Immortalis-G925 GPU 时,AI 推理速度加快 36%。
游戏性能上,官称在《使命召唤手游》、《Roblox》、《暗黑破坏神:不朽》、《明日之后》和《堡垒之夜》五款热门手机游戏中,性能提升幅度均在 29% 至 72% 之间,并且处于相同的 120FPS 性能条件下,功耗也有 30% 的显著降低。
Arm 终端 CSS 还带来了很多新特性,包括了第二代 Armv9.2 CPU 集群(Cortex-X925 CPU“黑鹰”超大核 CPU,效率最高的 Cortex-A725 和更新后的 Cortex-A520)、Arm Immortalis-G925 GPU 及其它新一代 GPU 核心),可实现基于 3nm 制程工艺上的一流 PPA,以及适用于安卓系统的 CSS 参考软件栈、固定虚拟平台 (Fixed Virtual Platform,FVP),新的 KleidiAI 和 KleidiCV 库(侧端人工智能和计算机视觉方面),还有全新的 Arm Performance Studio 可提供全方位的工具环境,帮助开发者简化开发流程。
目前新一代旗舰高端移动设备开始步入 3nm 制程工艺,在带来惊人的性能和效率提升外,也面临很多障碍和挑战。
为此,Arm 推出了全新的 3nm 物理 IP 解决方案与终端 CSS RTL 同步设计,为 3nm 芯片提供一流的 PPA,引入优化后的 CPU 和 GPU 核心实现,缩短芯片调优时间,充分发挥 3nm 技术潜力,让合作伙伴的 3nm 高端移动平台性能如虎添翼。Arm 预计合作伙伴对 Cortex-X CPU 的频率目标将超过 3.6GHz,以满足消费市场用户对性能的追求。
Arm 终端 CSS 还拥有强大的扩展能力,从高端手机、AI PC 到可穿戴设备,在众多消费电子的细分领域都能得到应用。比如终端 CSS 可为 PC 市场提供专用的可扩展平台,其采用的 Cortex-X925 CPU 可实现一流的单线程性能,并通过 DSU-120(在单个 CPU 集群内提供多达 14 个 CPU 核心)提供最佳的性能可扩展性。
GPU:移动游戏性能革命的催化剂
对消费者来说,Arm GPU 在消费电子产品上的使用场景感知是比较明显的,如大型手机游戏体验、光追效果以及应用 AI 加速等。今年新推出的 Arm Immortalis-G925、Arm Mali-G725 和 Arm Mali-G625 这一系列的 CPU,可以适用在包括旗舰智能手机、平板电脑、智能手表和入门级移动设备上,通过业界领先的生态系统,为消费者提供出色的图形性能,游戏体验和 AI 加速。
最直接的例子就是 MediaTek 的天玑 9300 芯片 (SoC) 采用了 Arm Immortalis-G720 GPU,而性能 / 功耗表现口碑不错的 vivo X100 系列和 OPPO Find X7 系列智能手机都有使用天玑 9300 芯片。天玑 9300 上所采用的 12 核 Immortalis-G720 GPU,相比上一代天玑 9200 的峰值性能提升高达 46%,相同功耗水平下,光追性能提升 46%;而相同性能下,功耗却降低了 40%。
而目前 Arm 推出的性能最强、效率最高的 GPU Immortalis-G925 将进一步实现图形性能的“飞跃”,它相比 Immortalis-G720 的性能提升了 37%,相同游戏性能下的功耗降低了 30%。在实际的游戏性能表现上,Immortalis-G925 相比 Immortalis-G720 的整体性能平均提升了 46%,其中《原神》移动端的性能提升幅度高达 49%,《堡垒之夜》的性能提升也有 29%。
对于游戏开发者而言,更出色的 GPU 性能和技术支持也能提供更大的开发空间。场景几何技术在游戏开发中至关重要,它可以持续提升游戏的画面表现。为了追求场景细节和游戏角色的真实性,《原神》和《堡垒之夜》这样的热门手游在几何复杂度上同比增长了 9% 和 11%。片段着色技术让物体的纹理更加真实,《原神》和《堡垒之夜》的片段着色器在 GPU 上的处理时间也激增了 27% 和 43%。
为此,Immortalis-G925 所支持的着色器核心数量提升到 24 个,增加了 50%,还引入了片段预处理 (Fragment Prepass)新机制,在处理几何工作负载时,能够更高效地减少过度绘制,渲染线程周期最高可缩短 43%,在提升性能和能效表现的同时,也减少了 CPU 的负载。
光线追踪技术在手游领域的应用也越来越广泛。同样以 Immortalis-G925 GPU 来举例,它具备硬件光线追踪,可配置 10 个以上的核心,并优化了光线追踪性能。在保持视觉准确性的同时性能可提高 27%,如果开发者选择稍微降低场景处理中的透明度准确性,性能提升幅度可来到 52%,并降低 57% 的内存流量,从而大幅降低功耗。
除了 GPU 产品的性能提升,Arm 也将通过与游戏厂商等合作伙伴进行游戏生态系统的协作,让游戏体验更好。目前 Arm 正在与 Epic Games 进行合作,在安卓平台上启用虚幻 5 引擎(Unreal Engine5) 桌面平台渲染器,让游戏的渲染和图形效果媲美桌面端,其中用于光线追踪的 Lumen 光照解决方案已针对 Arm GPU 进行优化,实现游戏主机品质的光照效果。
Arm 还和谷歌、MediaTek 针对安卓动态性能框架(Android Dynamic Performance Framework, ADPF)相关领域展开合作。谷歌提供的 API,让开发者可根据移动设备的实时热状态信息来判断和优化应用程序的体验和性能,从而降低功耗发热,延长游戏运行时间。MediaTek 则通过自适应游戏技术 (MAGT),提升自适应性功能及程度,降低开发难度。
在前文提到的 Arm Performance Studio 中,Arm 也进一步新增了 Frame Advisor 分析工具,让开发者能够更加高效、直观地进行图形数据分析和优化。Arm 也将通过以一系列的 GPU 工具和资源,对游戏开发者进行全方位的生态系统支持。
AI 性能:物尽其用发挥算力潜能
除了图形性能和技术,AI 性能也是 GPU 上不可或缺的部分,未来的游戏将会依靠更多 AI 技术,尤其是图形分割或物体检测这种工作负载更适合在 GPU 上运行。
在官方的对比中,图像处理方面(包括分割和分类),相比 TCS23 的 Immortalis-G720 GPU,Immortalis-G925 GPU 的性能表现提升了 41%,在超级采样任务中使用神经网络放大图像时,性能提升了近 30%;而在自然语言处理和语音转文本方面,性能提升幅度更是高达 50%。
结语
Arm 这次的技术分享,释放出了一个明确信号,那就是 Arm 正在携手合作伙伴全面转向 3 纳米先进工艺技术时代,并全力押注潜力无穷的 AI 领域。随着 Arm 转型成为计算平台提供商,不断地在半导体技术上实现突破,不仅能够带来硬件性能的提升,也通过全面完善的技术解决方案,帮助客户最有效率地打造和开发产品,并且所有技术和产品都能覆盖和适用于各个价位段以及多个消费品类的移动设备,最终让消费者可以拥有出色的使用体验。