当天下午关于机器学习加速器的第二场重要演讲来自 AMD。该公司的芯片架构师在本届大会上向观众详细介绍了 CDNA 4 架构,该架构为 AMD 新推出的 MI350 系列加速器提供支持。
与前代 MI300 一样,AMD 再次利用 3D 芯片堆叠技术来打造强大的芯片,将多达 8 个加速器复合裸片(XCD)堆叠在一对 I/O 裸片之上,形成一个拥有 1850 亿个晶体管的庞然大物。
大语言模型(LLM)的使用正在爆炸式增长。AMD 正是为满足这种硬件需求而来。
模型变得越来越复杂。LLM 的上下文长度越来越长,推理模型也需要更长的上下文长度。
要保持这些模型的性能,需要更高的内存带宽和容量,同时还要保持能效。当然,还需要能够将多个 GPU 集群化以容纳最大的模型。
MI350 已于今年交付,AMD 称其研发进度完全符合路线图。
MI350 应用于两个平台:用于风冷系统的 MI350X 和用于液冷系统的 MI355X。
MI350 使用了 1850 亿个晶体管,AMD 继续沿用小芯片(chiplets)和裸片堆叠技术。与 MI300 一样,计算裸片位于基础裸片之上,每个基础裸片上有 4 个计算裸片。
液冷系统的总板卡功耗为 1.4 千瓦。
I/O 裸片仍然采用 6 纳米工艺,AMD 表示将基础裸片建立在更小的工艺节点上并无太多益处。
与此同时,计算裸片则采用 台积电最新的 3 纳米 N3P 节点制造,以优化每瓦性能。
深入研究 I/O 裸片,Infinity Fabric 已进行调整,以适应 MI350 中所使用的更少的基础裸片。两个裸片减少了芯片间的跨裸片连接数量,并允许更宽、时钟频率更低的 D2D(die-to-die)连接,从而确保了更高的能效。
每个插槽有 7 个 IF 链路。
总的来说,IF 4 比 MI300 中使用的 IF 3 多提供 2TB/秒的带宽。此外,更大的内存容量使得所需 GPU 数量更少,从而减少了同步的开销。
在缓存和内存分层结构方面,LDS(Local Data Share)的大小相比 MI300 翻了一番。
每个新的、更大的 I/O 裸片上可以放置 4 个计算裸片。MI350 中总共有 8 个计算裸片。峰值引擎时钟频率为 2.4GHz。每个 XCD 都有一个 4MB L2 缓存,与其他 XCD 保持一致性。
CDNA 4 架构将许多数据类型的吞吐量几乎翻了一番,并引入了对 FP6 和 FP4 数据类型的硬件支持。
通过将 AI 数据类型的数学吞吐量几乎翻倍,AMD 认为其性能比竞争对手的加速器快 2 倍以上。
这是一张 SoC 逻辑框图,展示了 Infinity Fabric、Infinity Cache、内存和 XCD 如何协同工作。
转到平台层面的硬件视图,AMD 正在重点介绍如何利用这些 GPU 构建完整的系统。
一个 MI350 可以配置为单个 NUMA 域或两个 NUMA 域。
连接到另一个基础裸片的 HBM 内存会有一定的延迟。这就是两个 NUMA 域的作用,它将 XCD 的访问权限限制在其本地内存,从而降低延迟。
除了内存分区选项外,XCD 也可以被分割成多个计算分区,从单个域到将每个 XCD 作为一个独立的 GPU。
更进一步,一个多插槽系统在一块主板上最多可以容纳 8 个 GPU。Infinity Fabric 用于将 GPU 链接成全互连拓扑,而 PCIe 则用于连接到主机 CPU 和网卡(NIC)。
AMD 使用标准的 OAM 模块来容纳 MI350 GPU。
在一个通用基板(UBB)上,最多可以安装 8 个这样的模块。
MI350X 可以直接升级现有的风冷 MI300 和 MI325 系统。
与此同时,液冷 MI355X 平台提供更高的性能,但每个 GPU 的 TDP 功耗高达 1.4 千瓦。该平台仍然使用 OAM 模块,但用更小的直接液冷散热片取代了大型风冷散热器。
MI350 的两个平台拥有相同的内存容量和带宽,但计算性能有所不同,这反映了时钟频率的差异。
对于超大规模数据中心,液冷机架可以配置多达 96 或 128 个 GPU,而风冷选项则支持每个机架 64 个 GPU。
当需要整个机架时,AMD 提供了一个参考机架解决方案,其中所有的主要芯片,包括 GPU、CPU 和横向扩展网卡,都来自 AMD。
AMD 的 ROCm 软件已逐渐成熟。软件层面的性能提升与硬件性能提升同样重要,都能提高整体性能。
这里有几张幻灯片,展示了推理和训练的性能表现。
AMD 再次重申了其路线图,以及可靠的交付能力。这种能力将延续到明年的 MI400。
MI400 明年将为前沿 AI 模型提供高达 10 倍的性能提升。
以上就是 Hot Chips 2025 上 MI350/CDNA 4 的回顾。MI350 已经开始向 AMD 的合作伙伴供货,随着未来几个季度产量的增加,AMD 非常期待看到它的表现。