AMD Zen 5架构深入研究

智能计算芯世界

共 14719字,需浏览 30分钟

 ·

2024-07-25 07:37

AMD 在 Zen 5 技术日上详细介绍了其 Zen 5 Ryzen 9000 "Granite Ridge" 和 Ryzen AI 300 系列 "Strix Point" 芯片,深入探讨了公司下一代芯片。

AMD 一直在缓慢地公布 Zen 5 处理器的细节,但今天我们可以分享更多关于桌面和移动 Ryzen 处理器与竞争对手 Intel、Apple 和 Qualcomm 处理器的详细 AMD 基准测试。

AMD 还推出了一系列新主板,并深入介绍了 Zen 5 CPU、RDNA 3.5 GPU 和 XDNA 2 NPU 微架构。

下载链接:
AMD:算力帝国的挑战者(2024)
英伟达GPU加速迭代,聚焦AI光通信核心厂商
《Computex 2024系列主题演讲合集》
1、Computex 2024系列AMD主题演讲:CPU+GPU+UA互联厂商 2、Computex 2024英伟达主题演讲:AI时代如何在全球范围内推动新的工业革命
科技前瞻专题:国际巨头的端侧AI布局(2024)
AIoT白皮书:AI硬化向实而生
异构大规模分布式网络设计与性能评估

AI算力研究:英伟达B200再创算力奇迹,液冷、光模块持续革新



AMD 的 Zen 5 芯片采用全新的微架构,不断改进,每周期指令 (IPC) 吞吐量平均提高 16%。正如您在上面的路线图中看到的,Zen 5 架构将在其生命周期内跨越 4nm (N4P) 和 3nm 工艺节点。这意味着,就像该公司的其他几代微架构一样,我们可以期待具有更高性能的第二代模型在更小的工艺节点上出现。

AMD Zen 5 Ryzen 9000 "Granite Ridge" 基准测试和规格
我们已经涵盖了 Ryzen 9000 系列的产品堆栈,如下所示。需要提醒的是,除旗舰型号外,所有型号的 TDP 都低于其前代产品,但仍提供令人印象深刻的代际性能提升。AMD 仍未公布价格,但我们被告知将在 Ryzen 9000 的 7 月 31 日发布之前宣布价格。
所有 Ryzen 9000 型号都可以插入现有的 AM5 平台,并支持即将推出的 800 系列芯片组系列。因此,这些芯片支持许多与之前相同的功能,包括 PCIe 5.0 和 DDR5-5600 内存。与所有供应商提供的基准测试一样,对这些测试结果应持保留态度。




AMD Zen 5 Ryzen 9000 系列性能
AMD 之前分享了其旗舰 16 核 32 线程 Ryzen 9 9950X 相对于 Intel Core 9-14900K 的基准测试,生产力性能平均提升 21%,游戏性能提升 11%。值得注意的是,生产力提升的一部分来自 Ryzen 9000 在 AVX-512 工作负载中的性能翻倍,但在其他类型的工作负载中的提升也同样令人印象深刻。
AMD 的 12 核 24 线程 Ryzen 9 9900X 在与 14900K 的比较中同样令人印象深刻,在一系列生产力应用中领先 2% 到 41%。在一系列游戏中,它也领先 4% 到 22%。总的来说,这些数字平均表现出对 Intel 旗舰产品在生产力和游戏方面的约 10% 的领先优势。
Ryzen 9 9900X 的胜利尤为值得注意,因为这款 120/162W 的芯片(比前代峰值降低 68W)面对的是一款 125/253W 的 Intel 芯片,后者在移除功率限制后通常达到 350W。当然,Intel 的 Arrow Lake 芯片将于今年晚些时候推出,以挑战这一功率/性能领先地位。
八核 16 线程的 Ryzen 7 9700X 在基准测试中与 Core i7-14700K 竞争。尽管 AMD 的 65/88W 低功耗芯片面对的是 125/253W 的 Intel 模型,AMD 在生产力工作中的优势变得更加显著。总体而言,AMD 声称在生产力应用中领先约 13%,在游戏中领先 10%。
六核 12 线程的 Ryzen 5 9600X 与 Core i5-14600K(分别为 88W 对 181W 的峰值功耗)竞争,在生产力性能方面领先 22%(除去 HandBrake 异常值则为 15%),在游戏中领先 11%。这代表了 Zen 5 CPU 堆栈底部的强劲性能提升。
AMD 还包括了 AI 基准测试,突出了其对 VNNI(AI 优化指令集)的支持在 Zen 5 处理器上运行 Llama 和 Mistral 大型语言模型(LLM)的优势。正如你所见,Ryzen 9 9900X 轻松击败了 14900K,但我们认为这不是一个非常相关的比较——大多数人会直接在 GPU 上运行这些模型。AMD 还展示了其相对于 Intel 当前芯片的 PCIe 通道优势,这在运行多个 GPU 的 AI 模型时表现出更高的性能,同时保持附加 SSD 的完整 PCIe 5.0 速度。AMD 在这些 AI 工作负载中获胜,但我们认为这些对大多数桌面 PC 用户来说不是相关的工作负载。
AMD Ryzen 9000 系列游戏性能
AMD 强调了 Zen 5 在游戏性能上的飞跃,比较了 9700X 和最快的 Zen 3 游戏芯片 Ryzen 7 5800X3D。在发布 AM4 平台之后很久,Zen 3 驱动的 5800X3D 仍在 AMD 的较新标准 Zen 4 处理器中保持显著的领先地位——到目前为止,它比最快的标准 Zen 4 芯片高出约 8%。现在,你需要升级到更昂贵的 Zen 5 X3D 型号才能在游戏中超过 5800X3D,但 AMD 声称 Zen 5 Ryzen 7 9700X 在 1080p 游戏中比 5800X3D 快约 12%,尽管其功耗低 40W。
值得注意的是,AMD 避免了将其新芯片与其前一代 Zen 4 模型进行比较,但表示 9700X 将比目前市场上最好的游戏 CPU Ryzen 7 7800X3D 高出 "几个百分点"。这些结果表明 Ryzen 7 9700X 比前一代 Ryzen 7 7700X 的游戏性能提高了约 20%。
个别游戏结果仍然值得一看。在 AMD 的测试中,9700X 未能在某些游戏中击败 5800X3D,更不用说较新的 7800X3D 了。对于那些非常喜欢大 L3 缓存的游戏,IPC 和其他改进仍然无法弥补差距,我们需要等待不可避免的 Zen 5 X3D 部件在今年晚些时候到来。
TSMC N4P 节点和 Zen 5 IPC
AMD 的工程师证实了我们对 Zen 5 处理器使用 TSMC N4P 节点的怀疑,这比 Zen 4 的 5nm 节点有了显著的改进。这很重要,因为 TSMC 的标准 4nm 节点(N4)比 5nm 改进不大,而 N4P 在 4nm 系列中提供了最佳的代际改进(TSMC 的 4nm 节点正式属于其 5nm 系列)。
TSMC 表示,N4P 节点比 N5(5nm)节点性能提升 11%,功效提升 22%,晶体管密度提高 6%(光学缩小)。此外,TSMC 表示,由于 EUV 层数的增加,该工艺的生产使用的掩膜数量减少了 6%,这意味着它更具成本效益。AMD 还为 TSMC 3nm 节点设计了 Zen 5 工艺,但该公司尚未提供该节点的详细信息或这些芯片的发布日期。
N4P 工艺节点显然有助于提供更快且更高效的处理器性能。加上 16% 的 IPC 提升,AMD 的 Zen 5 前景非常光明。我们将在 Zen 5 架构页面深入探讨 IPC 增益。首先,让我们来看一下功效、超频、主板和 Ryzen AI 300。
Zen 5 Ryzen 9000 的功效与热量表现
AMD 表示,Ryzen 9000 系列运行温度显著低于其前代产品,从而帮助保持频率驻留在高位(更好的有效频率和更长的加速时长)。这是由于热阻提高了 15%,使得芯片在相同 TDP 下运行温度比 Zen 4 芯片低 7 摄氏度。

正如上面的第二张幻灯片所示,Ryzen 9000 改进的热性能使得三款新桌面芯片的 TDP 得以降低,同时在重度多线程工作负载中提供了显著的性能提升,这些工作负载将芯片推向了功率极限。AMD 使用 Blender 基准测试来突出重负载下的性能改进。
部分功效改进无疑是由于从 5nm 节点转移到 N4P,但 AMD 还进行了其他有针对性的优化以提高性能。AMD 的工程师表示,Zen 4 设计中的热点是一个挑战,因此他们减少了热点数量,并更好地分散了计算芯片上的剩余热点。工程师们还修复了 Zen 4 在整个芯片上分布的温度传感器的“次优”布局。与更智能的固件控制算法配对,温度传感器的更好布局使得对可用温度余量的控制更加精确。
AMD 表示,结果是显著减少了功耗,使系统比上一代型号以及 Intel 的竞品 Raptor Lake Refresh 运行得更冷、更安静。
新的 800 系列芯片组和超频
AMD 的原始 AM4 平台以其长寿命著称,自 2017 年推出以来支持了所有版本的 Ryzen(甚至包括之前的 Bristol Ridge 系列)。现在,它涵盖了 145 个 CPU 和 APU 型号,并且这个列表还在不断增长。

AMD 表示,我们可以期待 AM5 持续到 2027 年以后,因为它也是为长远考虑而设计的。AMD 已经在 2024 年 Computex 展会上推出了其顶级的 X870 和 X870E 芯片组,最显著的新增功能是强制加入 USB4 和 PCIe 5.0 支持,无论是用于图形还是存储。
现在,AMD 正在宣布面向性价比导向的 B 系列芯片组,除了我们预期的标准 B850,还新增了一个新的层级。新的 B840 主板介于廉价的 A 系列主板和标准完全支持超频的 B850 之间。两个层级之间有几个区别。B840 完全支持内存超频,但不像高端型号那样支持 CPU 超频。B840 主板还只有一个 PCIe 3.0 x16 连接——相对于 B850 主板上的 PCIe 5.0 和 4.0 连接,这是一个很大的削减。
B850 和 B840 都支持 USB 3.2,而不是 X 系列主板上的强制 USB 4。尽管 AMD 的 AM5 定价问题在很大程度上已经缓解,但 B840 的变化创造了一个更便宜的 B 系列主板,特别是为 OEM 提供了更多的价格灵活性。
不幸的是,AMD 的 800 系列主板在 Ryzen 9000 处理器于月底发布时不会上市。AMD 表示,各主板供应商将按各自的时间表发布,据我们早期的迹象显示,第一批主板将在 9 月底到货,比 Ryzen 9000 的发布日期晚了不少。Ryzen 9000 芯片完全兼容现有的 AM5 主板(需要进行必要的 BIOS 更新),因此早期采用者有选择。然而,分阶段的发布显然不是理想的。
超频增强和新功能
AMD 还在超频方面进行了多项改进。新的 800 系列 AM5 主板将支持比现有主板更高的内存超频上限。AMD 表示,800 系列可以支持高达 DDR5-8000 的内存超频。Ryzen 9000 还增加了实时内存超频功能,允许你在 Ryzen Master 应用程序中实时更改内存速度和时序。
AMD 还有一个新的内存优化性能配置文件,允许在 JEDEC 和 EXPO 超频配置文件之间手动或自动切换,以根据正在运行的应用程序类型优先考虑带宽或延迟(时序)。你可以在 Ryzen Master 实用程序中在不同配置文件之间切换,或启用自动切换。关于这一机制的细节尚不完全清楚,但我们将在芯片到货测试时了解更多。
AMD 现有的 Curve Optimizer 功能允许你为整个电压/频率曲线设置一个负或正偏移,处理器然后在整个曲线上应用这一偏移。新的 Curve Shaper 功能提供了更细致的控制,允许对三个温度点和五个频率点进行调整,为用户提供 15 个控制点。相对于现有机制允许的单点控制,这是一个重大增加。
AMD 的 Ryzen Master 已经有一个自动测试选项,可以分配 Curve Optimizer 偏移。这将继续工作,但不会提供全 15 点的优化——Curve Shaper 需要手动调整。然而,这两个功能可以结合使用,用户可以在分配单个 Curve Optimizer 值的基础上增加 Curve Shaper 点(Curve Shaper 作为一种全局修改器,将调整所有分配的范围)。
自动超频 Precision Boost Overdrive (PBO) 也回归了,AMD 表示,Ryzen 9000 的较低 TDP 范围为 PBO 增益提供了更多空间。公司指出,在启用 PBO 的情况下,Ryzen 5、7 和 9 处理器的多线程 Cinebench 性能提高了 6% 到 15%,但未在 PBO 示例中包含 Ryzen 9 9950X(可能是因为增益百分比较低)。我们将在评测中测试所有这些新的超频旋钮。
在接下来的内容中,我们将继续探讨 Ryzen AI 300 基准测试,然后讨论 CPU、GPU 和 NPU 架构。
AMD Zen 5 Ryzen AI 300 ‘Strix Point’ 游戏和生产力基准测试
AMD 还在 2024 年 Computex 展会上发布了 Ryzen AI 300 ‘Strix Point’ 处理器。首批搭载这些处理器的笔记本电脑将于本月在主要零售商处上市。虽然 AMD 没有宣布任何新的 Strix Point 芯片,但分享了新的基准测试结果。
AMD 将推出 12 核、24 线程的 Ryzen AI 9 HX 370(四个 Zen 5 核心和八个密度优化的 Zen 5c 核心)和 10 核、20 线程的 Ryzen AI 9 365(四个 Zen 5 核心和六个 Zen 5c 核心)。
公司的基准测试重点比较了 Asus Zenbook S 16 上的 Ryzen AI 9 HX 370 与 Asus Vivobook S 16 上的 Intel Core Ultra 9 185H 以及 Samsung Galaxy Book 4 上的 Snapdragon X Elite X1E-84-100。
AMD 的生产力基准测试显示,在 PCMark 10 的应用启动测试中,Ryzen 处理器有 7% 的优势,在完整的 PCMark 10 基准测试中有 13% 的领先,在 Procyon 办公生产力套件中有 21% 的领先,在 Kraken 网页浏览 JavaScript 基准测试中有 30% 的优势。然而,这些百分比似乎是相对于 Intel Core Ultra 芯片的,而不是 Snapdragon 笔记本。缺少标记轴使得与 X Elite 的比较变得困难。
在内容创作测试中,我们看到了另一轮有些难以理解的结果,但除了单线程 Cinebench 2024 基准测试外,Ryzen 处理器在所有测试中都占据了总体领先地位。在 Cinebench 2024 基准测试中,Snapdragon X Elite 占据领先地位,尽管 AMD 芯片上标有 1.2 倍的标签,X Elite 也在多线程 Cinebench 基准测试中紧追其后。AMD 在 Blender 基准测试中享有巨大的优势,并在 HandBrake 和 PCMark 10 中也取得了可观的领先。
AMD 还在游戏中对其竞争对手进行了挑战,声称比 Intel Core Ultra 9 处理器有 27% 到 65% 的领先优势。然而,由于图表标签不清晰,X Elite 的具体优势仍然难以辨别。AMD 快速指出,三个游戏标题在 X Elite 处理器上无法运行,这并不完全令人惊讶。
我们总是预期供应商提供的基准测试结果会有不一致之处,因此对这些结果应持保留态度。测试说明(相册末尾)还指出,Intel 处理器只有 16GB 内存,而 Ryzen 处理器有 32GB 内存,这引发了 Intel 系统是否运行在性能不佳的单通道配置中的疑问——希望不是如此,但内存配置不一致显然不理想。
直接对比 Apple M 系列处理器的性能
AMD 传统上避免直接与 Apple M 系列处理器进行性能对比。然而,华硕在活动上展示了其搭载 AMD 处理器的新款 Zenbook S 16,并分享了一些自己的基准测试,以突出 Ryzen AI 9 HX 370 在与搭载 M3 处理器的 Apple MacBook Air 15 比较时的性能。华硕在幻灯片中提供的测试配置信息很少,因此我们对这些基准测试结果要持保留态度。
华硕声称在 Geekbench OpenCL CPU 分数基准测试中领先 20%,在 UL Procyon 基准测试中则领先高达 118%。其他显著的领先包括在 Cinebench(很可能是多线程基准测试)中领先 60% 以及在 Geekbench CPU 分数中领先 20%。
华硕还展示了 AMD 的 Fluid Motion Frames (AFMF) 和 54W Strix Point 的 Radeon 890M 集成显卡的性能增益,显示组合性能超过了一个独立的 RTX 2050 GPU(60W GPU + 45W CPU)。正如预期的那样,Radeon 只有在 AFMF 增加额外帧时才占据领先,AFMF 是一种帧生成的驱动级实现,并不总是如图表所示那样有效(我们在上面的幻灯片中有两张同样的幻灯片,一张是没有 AFMF 的 Radeon 分数,另一张是启用 AFMF 的比较幻灯片)。
AMD Zen 5 微架构

Zen 架构于 2017 年首次亮相,比 Bulldozer 提高了 52% 的 IPC,自那以来每一代都实现了两位数的 IPC 增长。Zen 5 的 IPC 提高了 16%,这是通过 13 个工作负载测量的。Zen 5 显著提高了矢量数学性能,在单核机器学习(VNNI)中比 Zen 4 提高了 32%,在单核 AES-XTS 加密工作负载(AVX-512)中提高了 35%,这些都是通过 Geekbench 子测试测量的。
Zen 5 是一个全面改进的架构,其首席架构师 Mike Clark 表示,这将成为未来几代微架构的基础。它还将用于采用 TSMC 4nm 和 3nm 工艺节点的芯片,并且有并行的跨越团队在这两种设计上工作。

与 Zen 4 处理器一样,核心计算晶粒(CCD)最多有八个核心和一个大的 32MB 共享 L3 中心。两个 CCD 连接到与 Zen 4 处理器相同的 6nm I/O Die(IOD),因此该芯片提供相同的图形支持和基本连接选项。你可以在上面的第二张图片中看到 Ryzen 9000 的示意图。
AMD 没有分享任何关于紧凑型 Zen 5c 核心的新幻灯片,但我们揭示了一些细节。需要提醒的是,AMD 的 Zen 5c 核心设计比“标准” Zen 5 性能核心占用更少的晶粒空间,同时为不太需要的任务提供足够的性能,从而节省功耗并在每平方毫米上提供更多的计算性能(深度解析见此)。
Intel 的 E-Cores 采用类似的方法,但 AMD 的 Zen 5c 使用与标准 Zen 5 核心相同的微架构,并支持相同的功能,而其核心较小。相比之下,Intel 的设计在每种核心类型上采用不同的架构和功能支持。较小的 Zen 5c 核心以较低的时钟速率运行,提供的峰值性能比标准核心低,但它们也为其他元素(如更大的 GPU 和 NPU)保留了晶粒面积。
上面可以看到之前共享的显示 Ryzen AI 300 处理器平面图的图像,以及随后显示砂磨后的晶粒图像,揭示了封面下的架构。这显示了令人惊讶的细节。四个标准 Zen 4 核心排列在 Zen 5 核心群的底部,八个 Zen 5C 核心排列在顶部。
这两种核心类型都有各自的 L1 和 L2 缓存,但 16MB 的 L3 缓存被分成两个 8MB 的切片,一个切片在 Zen 5C 核心之间共享,另一个切片在标准 Zen 5 核心之间共享(这可以在框图中看到为八个 Zen 5C 核心中间的一条线)。
因此,这两个 L3 缓存必须通过数据织构相互通信,就像 AMD 旧的 Zen 2 架构中的 CCX-to-CCX 缓存一致性机制一样。这确实会引入缓存到缓存传输的更高延迟,AMD 表示“并不比你去内存所需的时间多”。因此,AMD 使用 Windows 调度机制试图将工作负载限制在 Zen 5 或 5C 核心上,以减少高延迟传输的发生,后台工作负载通常分配给 5C 核心。AMD 将研究在实际应用中在这两种核心类型上运行的并发应用程序的行为,从而不断评估在未来设计中是否统一 L3 缓存是合理的。
该设计将三个计算引擎——CPU、NPU 和 GPU——与数据织构连接在一起。每个 CPU 集群(Zen 5 和 5C)都有一个 32B/周期的接口,而 GPU 在数据织构中有四个 32B/周期的接口,XDNA 引擎有一个 32B/周期的接口。
AMD 重新设计了设计前端,改进了取指、解码和调度元素,以供给更宽的执行引擎。它还将 L2 和 L1 缓存之间以及 L1 到浮点单元之间的数据带宽加倍,这有助于实现代际游戏性能的提升。
前端采用了双管道取指和改进的分支预测精度,从而每个周期提供更多的预测(TAGE 分支预测引擎)。这些预测被送入现在双端口的指令和操作缓存,从而减少延迟。AMD 还添加了一个双 4 宽解码路径,供给微操作队列,然后是八宽调度。
Zen 执行引擎长期以来支持每周期最多六条指令和四个算术逻辑单元(ALU)进行整数执行。Zen 5 是 AMD 首次将 Zen 执行引擎扩展到支持每周期调度和退休最多八条指令,从而满足来自前端的增加的指令吞吐量。
Zen 4 为整数单元提供了四个调度器,而 Zen 5 为所有六个 ALU 单元提供了统一的 ALU 调度器。执行窗口也扩大了 40%(最多 448 个未完成的操作),以更好地处理更宽调度和执行带来的额外未命中。
AMD RDNA 3.5
AMD 的 RDNA 3.5 引擎为 Strix Point 处理器中的 Radeon 890M 和 880M 集成显卡提供动力,但 AMD 并未在 Ryzen 9000 处理器中使用它们——这些处理器仍然采用 RDNA 2 架构。
AMD 的 Mark Papermaster 将公司与三星的合作(公司将其 RDNA 图形 IP 授权用于 Galaxy 智能手机)视为了解低功耗环境的关键来源。这些经验对同样受电池电量限制的其他移动设计(如笔记本电脑)也非常有用。
AMD 将这些经验融入 RDNA 3.5 中,这是对 RDNA 3 引擎的渐进改进,通过一系列优化提高了每瓦特的性能,包括对纹理和着色引擎的有针对性的改变。该设计还通过优化内存子系统提高了每比特性能。Papermaster 表示,这些变化带来了“单位能量消耗的双位数性能提升”。
其他改进包括通过将纹理采样单元数量翻倍来实现纹理采样率的翻倍,以为游戏纹理引入更多并行性。AMD 还将像素插值和比较率翻倍,并添加了一个标量算术逻辑单元来识别单次写入操作,然后丢弃它们以提高性能和效率。Papermaster 还指出了一种全新的方法,通过创建更小的子批次来减少对 LPDDR5 内存的访问,并优化内存压缩以减少数据传输,这两者都节省了电能并提高了性能。
AMD XDNA 2 NPU 架构
AMD 的 Ryzen AI 300 系列是该公司第三代内置神经处理单元 (NPU) 的处理器。AMD 的 Phoenix 芯片是首款带有内置 NPU 的 x86 处理器,通过 XDNA NPU 提供 10 TOPS 的性能,而 AMD 通过第二代 Hawk Point 模型将这一性能提升至 16 TOPS。然而,这些增益来自于时钟速度的提升,而不是 XDNA 架构的变化。
Strix Point 通过第二代 XDNA 2 引擎将 NPU 性能提升至 50 TOPS,这项技术源于 AMD 对 Xilinx 的收购。除了速度和供给的提升,我们还可以看到本地 AI 加速的最大合理性之一——节能。在这里,AMD 表明其 XDNA 2 引擎在运行 AI 模型时比 CPU 节能高达 35 倍,而这一能力对于长时间的后台工作负载至关重要,这是 NPU 的最佳应用场景。
XDNA 2 引擎是一个空间数据流架构,具有二维计算瓦片阵列,通过一个灵活的互连网络连接在一起,可以在运行时编程以创建自定义计算层次结构。AMD 表示,所有其他 NPU 都有固定的层次结构,并且没有 XDNA 2 的互连结构中提供的 TB 级东西向带宽。该架构还在阵列中放置了 SRAM 缓存。AMD 声称无缓存设计提供了非常确定性的延迟——这是 AI 工作负载的关键——可编程互连通过允许单元之间的无缝数据多播最大化带宽,以减少对互连结构的流量。
该设计还支持灵活的实时分区。例如,一个 AIE 计算瓦片列可以专用于轻量级工作负载,而一个四列阵列可以分配给较重的任务。这种技术旨在优化功率、性能、带宽和延迟,同时运行并发的 AI 模型。
架构增强增加了每个瓦片的处理能力,但 AMD 还必须将瓦片数量从 20 增加到 32 才能达到 50 TOPS 的目标。公司还增加了 1.6 倍的片上内存,并将每个瓦片的 MAC(乘法累加器)数量增加了一倍。
XDNA 2 引擎的架构变化使其计算能力提高了 5 倍,能效提高了 2 倍。XDNA 2 还支持同时运行多达 8 个 AI 模型。

NPU 性能通常通过 INT8 工作负载中的性能来衡量,这是一种不太精确的数据类型,使用较少的计算和内存来运行模型。然而,模型必须首先量化为 INT8 格式,并且在此过程中会损失一些精度。
AMD 的 XDNA 2 NPU 支持 Block BF16,一种据称提供与 FP16 相同精度且具有许多与 INT8 相同计算和内存特征的新数据格式。AMD 表示 Block FP16 与其实现即插即用;它不需要对现有模型进行量化、调优或重新训练。
AMD 声称拥有市场上唯一支持 Block FP16 的 NPU,但英特尔表示 Lunar Lake 也支持这种数学格式。AMD 的代表似乎对英特尔对这种格式的支持并不熟悉,他们承认这会使上述基准中的 Lunar Lake 性能预测失效。
观点
Ryzen 9000 “Granite Ridge” 处理器将在 7 月 31 日发布,时机非常合适。英特尔的旗舰发烧级处理器存在广泛的崩溃问题,这一未解决的问题以及竞争对手 Arrow Lake 处理器要到今年晚些时候才会上市,这可能会让 AMD 在几个月内赢得性能桂冠。Ryzen 9000 准备迎接英特尔即将推出的芯片,16% 的 IPC 提升在性能方面提升了所有领域,而低端型号的 TDP 减少多达 40% 则利用了 AMD 的功耗优势。
然而,Arrow Lake 将是一个强劲的竞争对手——它将是首款采用英特尔新 20A 工艺节点的处理器。这个节点具有英特尔首个背面供电(PowerVia)和全环栅极(GAA/RibbonFET)晶体管。芯片还据说配备了新的 Lion Cove P 核和 Skymont E 核,再次标志着向前迈出重要一步,应能在桌面 PC 市场保持激烈竞争。
搭载 AMD Ryzen AI 300 “Strix Point” 处理器的笔记本电脑将于本月上市,时机再好不过——高通的 Snapdragon X Elite Arm 处理器凭借成为唯一符合微软要求以品牌为 Windows Copilot+ PC 的系统而出尽风头。
看来 AMD 的官方 Copilot+ 认证要到今年晚些时候才会推出。不过,即便只增加了 5 个 TOPS 的 NPU 性能,能够提供具备更高 TOPS 性能的 AI 电脑也是一个营销胜利,将有助于 AMD 在 AI PC 升级热潮中保持关注。AMD 还享有击败英特尔 Lunar Lake 上市的优势,暂时获得了一些喘息空间。并且 AMD 无需担心 x86 仿真或图形驱动问题,这是高通仍在努力解决的问题。
Zen 5 Ryzen 9000 “Granite Ridge” 处理器将于 7 月 31 日发布,搭载 Ryzen AI 300 “Strix Point” 的笔记本电脑也将于本月底上架。
原文:
https://www.tomshardware.com/pc-components/cpus/amd-deep-dives-zen-5-ryzen-9000-and-strix-point-cpu-rdna-35-gpu-and-xdna-2-architectures
来源:EETOP

下载链接:

2024年中国安防视频监控SoC芯片行业研究报告:安防SoC市场喜迎百亿爆发,众企竞逐后海思时代

迈向巅峰之路:中国成长型AI企业研究报告(2024)

2024安全大模型技术与市场研究报告

2024大模型典型示范应用案例集

HBM专题:逐鹿顶尖工艺,HBM4的三国时代

AI Agent行业词条报告:驱动智能交互变革,重塑服务生态

空间数据智能大模型研究:2024年中国空间数据智能战略发展白皮书

企业竞争图谱:2024年量子计算词条报告

2024中国服务器CPU行业概览:信创带动服务器CPU国产化

HBM专题报告:跨越带宽增长极限,HBM赋能AI新纪元

2024基于标准PCIe接口的人工智能加速卡液冷设计白皮书

大模型时代的算力和存储产业新机遇

《新型智算中心改造系列报告合集》

1、新型智算中心改造系列报告二:拉动全球电力消耗增长,液冷渗透率快速提升 2、新型智算中心改造系列报告一:网络成大模型训练瓶颈,节点内外多方案并存

《国产异构处理器定位优化技术合集》

1、面向申威众核处理器的规则处理优化技术 2、神威超级计算机运行时故障定位方法

2024中国半导体深度分析与展望报告

面向异构硬件架构软件支撑和优化技术

AI大模型赋能手机终端,拥抱AI手机新机遇

全球AI算力行业首次覆盖:从云到端,云端协同,AI开启科技行业超级成长周期

2024年中国大模型行业应用研究:大模型引领智能时代,助力各行业全面升级

《半导体行业系列专题合集》

1、半导体行业系列专题:刻蚀—半导体制造核心设备,国产化典范

2、半导体行业系列专题:碳化硅—衬底产能持续扩充,加速国产化机会 

3、半导体行业系列专题:直写光刻篇,行业技术升级加速应用渗透 

4、半导体行业系列专题:先进封装—先进封装大有可为,上下游产业链受益

“人工智能+”进入爆发临界,开启繁荣生态前景

鲲鹏处理器软件性能调优(精编版)

《算力网络:光网络技术合集(1)》

1、面向算力网络的新型全光网技术发展及关键器件探讨 

2、面向算力网络的光网络智能化架构与技术白皮书 

3、2023开放光网络系统验证测试规范 

4、面向通感算一体化光网络的光纤传感技术白皮书

《算力网络:光网络技术合集(2)》

1、数据中心互联开放光传输系统设计 

2、确定性光传输支撑广域长距算力互联 

3、面向时隙光交换网络的纳秒级时间同步技术 

4、数据中心光互联模块发展趋势及新技术研究

面向超万卡集群的新型智算技术白皮书

面向AI大模型的智算中心网络演进白皮书

网络系列报告之交换机概览:IB性能占优,以太网开放占优

中国分布式存储产业未来发展空间广阔(2024)


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


浏览 37
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报