跳过正文

AMD 在 Hot Chip 2025 大会深入探讨 CDNA 4 架构和 MI350 加速器

AMD CDNA 4 MI350

AMD MI350 Accelerator
AMD MI350 Accelerator

当天下午关于机器学习加速器的第二场重要演讲来自 AMD。该公司的芯片架构师在本届大会上向观众详细介绍了 CDNA 4 架构,该架构为 AMD 新推出的 MI350 系列加速器提供支持。

与前代 MI300 一样,AMD 再次利用 3D 芯片堆叠技术来打造强大的芯片,将多达 8 个加速器复合裸片(XCD)堆叠在一对 I/O 裸片之上,形成一个拥有 1850 亿个晶体管的庞然大物。

Large Language Models: Explosive Growth
Large Language Models: Explosive Growth

大语言模型(LLM)的使用正在爆炸式增长。AMD 正是为满足这种硬件需求而来。

模型变得越来越复杂。LLM 的上下文长度越来越长,推理模型也需要更长的上下文长度。

GenAI Needs
GenAI Needs

要保持这些模型的性能,需要更高的内存带宽和容量,同时还要保持能效。当然,还需要能够将多个 GPU 集群化以容纳最大的模型。

Instinct MI350 Series
Instinct MI350 Series

MI350 已于今年交付,AMD 称其研发进度完全符合路线图。

MI350 Architecture Enhancements
MI350 Architecture Enhancements

MI350 应用于两个平台:用于风冷系统的 MI350X 和用于液冷系统的 MI355X

MI350 GPU
MI350 GPU

MI350 使用了 1850 亿个晶体管,AMD 继续沿用小芯片(chiplets)和裸片堆叠技术。与 MI300 一样,计算裸片位于基础裸片之上,每个基础裸片上有 4 个计算裸片。

液冷系统的总板卡功耗为 1.4 千瓦。

I/O 裸片仍然采用 6 纳米工艺,AMD 表示将基础裸片建立在更小的工艺节点上并无太多益处。

与此同时,计算裸片则采用 台积电最新的 3 纳米 N3P 节点制造,以优化每瓦性能。

MI350 GPU Chiplets
MI350 GPU Chiplets

深入研究 I/O 裸片,Infinity Fabric 已进行调整,以适应 MI350 中所使用的更少的基础裸片。两个裸片减少了芯片间的跨裸片连接数量,并允许更宽、时钟频率更低的 D2D(die-to-die)连接,从而确保了更高的能效。

每个插槽有 7 个 IF 链路

MI350 GPU Metrics
MI350 GPU Metrics

总的来说,IF 4MI300 中使用的 IF 3 多提供 2TB/秒的带宽。此外,更大的内存容量使得所需 GPU 数量更少,从而减少了同步的开销。

MI350 GPU Cache & Hierarchy
MI350 GPU Cache & Hierarchy

在缓存和内存分层结构方面,LDS(Local Data Share)的大小相比 MI300 翻了一番

Accelerator Complex Die (XCD)
Accelerator Complex Die (XCD)

每个新的、更大的 I/O 裸片上可以放置 4 个计算裸片。MI350 中总共有 8 个计算裸片。峰值引擎时钟频率为 2.4GHz。每个 XCD 都有一个 4MB L2 缓存,与其他 XCD 保持一致性。

Supported Data Formats
Supported Data Formats

CDNA 4 架构将许多数据类型的吞吐量几乎翻了一番,并引入了对 FP6FP4 数据类型的硬件支持。

Supported Data Formats Performance Comparison
Supported Data Formats Performance Comparison

通过将 AI 数据类型的数学吞吐量几乎翻倍,AMD 认为其性能比竞争对手的加速器快 2 倍以上

SoC Block Diagram
SoC Block Diagram

这是一张 SoC 逻辑框图,展示了 Infinity Fabric、Infinity Cache、内存和 XCD 如何协同工作。

Flexible GPU Partitioning
Flexible GPU Partitioning

转到平台层面的硬件视图,AMD 正在重点介绍如何利用这些 GPU 构建完整的系统。

一个 MI350 可以配置为单个 NUMA 域两个 NUMA 域

连接到另一个基础裸片的 HBM 内存会有一定的延迟。这就是两个 NUMA 域的作用,它将 XCD 的访问权限限制在其本地内存,从而降低延迟。

Flexible GPU Partitioning, Cont
Flexible GPU Partitioning, Cont

除了内存分区选项外,XCD 也可以被分割成多个计算分区,从单个域到将每个 XCD 作为一个独立的 GPU。

Infinity Platform
Infinity Platform

更进一步,一个多插槽系统在一块主板上最多可以容纳 8 个 GPU。Infinity Fabric 用于将 GPU 链接成全互连拓扑,而 PCIe 则用于连接到主机 CPU 和网卡(NIC)。

Air Cooled OAM
Air Cooled OAM

AMD 使用标准的 OAM 模块来容纳 MI350 GPU。

Air Cooled UBB
Air Cooled UBB

在一个通用基板(UBB)上,最多可以安装 8 个这样的模块。

Leveraging Existing DC Infrastructure
Leveraging Existing DC Infrastructure

MI350X 可以直接升级现有的风冷 MI300 和 MI325 系统。

Liquid Cooling
Liquid Cooling

与此同时,液冷 MI355X 平台提供更高的性能,但每个 GPU 的 TDP 功耗高达 1.4 千瓦。该平台仍然使用 OAM 模块,但用更小的直接液冷散热片取代了大型风冷散热器。

MI350X and MI3550X Platforms
MI350X and MI3550X Platforms

MI350 的两个平台拥有相同的内存容量和带宽,但计算性能有所不同,这反映了时钟频率的差异。

Rack-Scale Solutions
Rack-Scale Solutions

对于超大规模数据中心,液冷机架可以配置多达 96 或 128 个 GPU,而风冷选项则支持每个机架 64 个 GPU

Rack Infrastructure
Rack Infrastructure

当需要整个机架时,AMD 提供了一个参考机架解决方案,其中所有的主要芯片,包括 GPU、CPU 和横向扩展网卡,都来自 AMD。

ROCm 7
ROCm 7

AMD 的 ROCm 软件已逐渐成熟。软件层面的性能提升与硬件性能提升同样重要,都能提高整体性能。

Inference Performance
Inference Performance

Large Inference Performance
Large Inference Performance

GPU Training Performance
GPU Training Performance

这里有几张幻灯片,展示了推理和训练的性能表现。

Annual Roadmap
Annual Roadmap

AMD 再次重申了其路线图,以及可靠的交付能力。这种能力将延续到明年的 MI400

Accelerating AI Compute Performance
Accelerating AI Compute Performance

Instinct MI400
Instinct MI400

MI400 明年将为前沿 AI 模型提供高达 10 倍的性能提升。

以上就是 Hot Chips 2025 上 MI350/CDNA 4 的回顾。MI350 已经开始向 AMD 的合作伙伴供货,随着未来几个季度产量的增加,AMD 非常期待看到它的表现。

相关文章

AMD MI350 价格上涨 70%,意在抢占 AI 加速新高地
AMD AI Computing MI350 Price Increase
AMD 推出 Radeon RX 7400:紧凑高效的入门级游戏显卡
AMD Gaming GPU
AMD即将推出双3D V-Cache Ryzen 9000处理器
AMD 3D V-Cache