随着 AI 计算加速发展,AMD 正以前所未有的姿态走向前台。长期处于 NVIDIA 阴影之下的它,如今正借助 Instinct MI350 系列 强势切入 AI 加速市场,并通过技术升级和显著的价格调整展现其信心。
AMD 近期将 MI350 加速卡的售价从 $15,000 提升至 $25,000,涨幅高达 70%。虽然幅度不小,但这反映了强劲的市场需求与 AMD 对产品竞争力的信心。即便如此,其价格仍低于 NVIDIA 的 Blackwell B200(起售价约 $30,000),AMD 显然希望在 性能、性价比与利润空间之间寻求新平衡。
技术升级与规格亮点 #
MI350 系列基于 AMD 最新的 CDNA 4 架构,采用台积电 3nm 工艺制造,包含 MI350X 与 MI355X 两款型号。两者均配备高达 288GB 的 HBM3E 高带宽内存,带宽可达 8TB/s——相比上一代 MI300X 的 5.2TB/s 有显著提升,也领先于 Blackwell B200 的 192GB 容量。
如此大容量内存让 MI350 能够轻松处理 超过 500 亿参数的大模型,无需频繁访问外部存储,有效降低训练与推理阶段的延迟。
在算力方面,MI350 支持多种浮点格式(FP4、FP6、FP8、FP16),其中 MI355X 在 FP4 模式下峰值可达 20.1 PFLOPS,FP8 模式下为 10.1 PFLOPS,而 B200 的 FP4 性能约为 9 PFLOPS。这得益于 AMD 的 chiplet 模块化设计:MI350 由 8 个计算核心(XCD)与 2 个 I/O 核心组成,总晶体管数达 1850 亿,比 MI300X 增加了 21%。总共 256 个计算单元提供了更好的可扩展性与功耗表现。MI350X 支持风冷,而 MI355X 功耗达 1400W,支持液冷散热,适用于高密度部署场景。
架构革新与生态构建 #
CDNA 4 架构引入更高效的 Infinity Fabric 互联技术,带宽提升至 5.5TB/s,同时降低总线频率与电压,提升整体能效。在 Llama 3.1 405B 等模型的推理任务中,MI355X 性能是 MI300X 的 35 倍;在 DeepSeek R1 和 Llama 3.3 70B 等基准测试中,其表现 媲美甚至超越 B200 和 GB200,领先可达 3 倍。
这不仅体现在理论性能上,更源于 AMD 针对 矩阵引擎与稀疏计算的深入优化,使其在实际 AI 负载中表现卓越。
在软件生态方面,AMD 正迅速追赶。其 ROCm 7 平台已全面支持 MI350,并兼容 PyTorch、TensorFlow 等主流框架,还针对 分布式训练做出优化。同时,AMD 积极参与 Ultra Ethernet 联盟 与 UALink 联盟,推进开放互联标准,这与 NVIDIA 封闭的 NVLink 形成鲜明对比。Meta、微软、OpenAI 等云巨头已在数据中心部署 MI300X,预计也将在 MI350 上进一步合作。
市场趋势与战略节奏 #
AI 芯片市场预计将在 2028 年达到 5000 亿美元规模,数据中心对高性能算力的投资持续增长。尽管 NVIDIA 目前仍占据约 90% 市场份额,但其供应能力受限,尤其是台积电 CoWoS 封装产能紧张,为 AMD 创造了抢占机会。
AMD 抓住这一窗口期,快速推进产品路线图:
- 2024 年发布 MI325X
- 2025 年中推出 MI350 系列
- 2026 年推出 MI400,集成 HBM4 内存,带宽高达 19.6TB/s,正面挑战 NVIDIA Rubin 架构
本次涨价也反映了市场趋势判断:MI350 相较于 B200 成本低 30%、内存更多,适用于预算受限但需求强劲的企业客户。与此同时,AMD 推出 Helios 架构机架级解决方案,将 MI350 与第五代 EPYC 处理器整合,可提供高达 2.6 Exaflops 的 FP4 计算性能,适配超大规模集群部署。
面向未来 #
随着大模型参数从千亿迈向 万亿级别,对 内存容量与能效的需求将成为核心竞争力。MI350 拥有高内存与液冷设计,适应未来高密度数据中心的计算负载。而 AMD 开放的生态战略,可能逐步在 云服务、科研机构与企业市场中削弱 NVIDIA 的垄断地位。
当然,挑战仍然存在。NVIDIA 的 CUDA 生态已深度集成,部署经验更为丰富。AMD 需要不断打磨其软件工具链,并积累更多成功客户案例,才能真正站稳脚跟。
此次价格调整,标志着 AMD 在 AI 加速市场上更具信心的转折点。凭借技术实力与市场节奏的把控,MI350 有望重塑加速卡市场格局,推动整个行业迈向更高层次。