AMD 正式发布 Instinct MI350:AI 训练与推理的新旗舰 #
在 Hot Chips 2025 大会上,AMD 正式公布了其新一代 Instinct MI350 系列 GPU 加速器的完整规格。基于全新的 CDNA 4 架构,MI350 针对 大语言模型(LLM)训练、AI 推理 和 高性能计算(HPC) 场景进行了深度优化。
凭借 1850 亿晶体管、288GB HBM3e 内存 和 行业领先的计算性能,MI350 成为 AMD 向 NVIDIA AI 加速领域霸主地位发起冲击的重要产品。
架构设计:CDNA 4 与 3D 封装 #
MI350 采用 3D 多芯片封装(MCM),结合 台积电 N3P 与 N6 工艺,并通过 CoWoS-S 高密度互连技术实现大规模并行处理。
单个 GPU 封装包含:
- 8 个 XCD(计算芯片)
- 2 个 IOD(I/O 芯片),负责 Infinity Fabric 互连与 HBM3e 控制器
这一架构不仅提供更高的计算密度,也为 AI 工作负载的高速数据传输 提供支持。
内存与带宽:288GB HBM3e + 8TB/s #
相比上一代,MI350 在内存方面实现了大幅提升:
- 288GB HBM3e 内存
- 8 TB/s 内存带宽(MI300 为 6 TB/s)
- 每堆栈 36GB,12-Hi 封装设计
- 256MB Infinity Cache 降低延迟
这一设计让 MI350 能够处理 超大规模模型训练 和 长上下文推理任务,成为 生成式 AI 的新利器。
计算性能:最高 10 PFLOPS #
MI350 在多种精度下的计算性能极为强大:
- 2.5 PFLOPS FP16/BF16 矩阵性能
- 5 PFLOPS FP8 性能
- 10 PFLOPS MXFP6/MXFP4 格式
- 78.6 TFLOPS FP64 双精度矢量性能
在大会演示中,MI355X 在 Llama 3.1 405B 推理任务中的吞吐量比 MI300 提升 35 倍,充分显示出其 AI 优化能力。
互连与扩展能力 #
MI350 搭载 第四代 Infinity Fabric,提供:
- 1075 GB/s 单卡聚合带宽
- 支持 8 卡互连,通信速率提升约 20%
散热与功耗方案:
- MI350X(风冷版) – 1000W TDP,支持 10U 机架
- MI355X(水冷版) – 1400W TDP,高密度 5U 部署
在标准集群中,单机架可实现 80 PFLOPS FP8 算力 与 2.25TB 内存资源,大幅增强 AI 数据中心算力密度。
与 NVIDIA 的对比优势 #
AMD 在发布会上强调 MI350 系列相较于 NVIDIA 的竞争优势:
- 1.6 倍内存容量(对比 GB200)
- 2 倍 FP64 性能,优势明显于 HPC 场景
- FP8/FP16 主流精度性能与 NVIDIA 大致持平
- 支持 多实例 GPU 分区,单卡可同时运行多个 700 亿参数模型
这些特性让 MI350 在 AI 推理效率 与 科学计算精度方面形成差异化优势。
上市时间与产品路线图 #
AMD Instinct MI350 将于 2025 年第三季度 向合作伙伴与超大规模数据中心交付。
同时,AMD 还确认 Instinct MI400 系列 已在研发中,计划于 2026 年发布,进一步推动其 AI 加速器年度迭代战略,以满足 生成式 AI 爆炸性增长的需求。
总结:AMD 的 AI 新旗舰 #
AMD Instinct MI350 系列 不仅仅是一款 GPU,它代表了 AMD 在 大内存、高带宽、AI 优化计算方面的全面进化。
凭借 288GB HBM3e 内存、最高 10 PFLOPS 性能 以及 可扩展的 Infinity Fabric 互连,MI350 让 AMD 成为 AI 与 HPC 市场中 NVIDIA 的强劲对手。
随着 生成式 AI 的快速发展,MI350 的发布意味着 AI 数据中心算力之战进入新阶段。