最大计算吞吐量
CDNA3 架构为深度学习训练、LLM 微调和需要最大吞吐量的科学计算工作负载提供了突破性的计算性能。
部署由 AMD Instinct 加速器驱动的 HPE 企业级裸金属服务器,用于机器学习、LLM 推理和高性能计算工作负载。
专为人工智能、机器学习和大型语言模型部署而设计。AMD Instinct GPU 服务器结合了 CDNA3 计算架构、Zen 4 CPU 内核和 192GB HBM3 统一内存,可满足高强度 AI 训练、推理和高性能计算 (HPC) 应用的需求。
CDNA3 架构为深度学习训练、LLM 微调和需要最大吞吐量的科学计算工作负载提供了突破性的计算性能。
集成式设计将 AMD Instinct GPU 与 24 核 EPYC™ Zen 4 CPU 相结合,消除了传统的 CPU-GPU 数据传输瓶颈,从而实现了卓越的效率和可编程性。
192GB HBM3 统一内存可实现大规模 AI 模型的训练和推理,不受内存限制,支持具有广泛数据集的复杂工作负载。
基于 CDNA 2 架构的企业级加速器,适用于百亿亿次级计算和人工智能工作负载

旗舰级 MI200 系列加速器,为高级 HPC 模拟、分子动力学和 AI 研究应用提供百亿亿次级性能。

生产就绪型加速器,针对企业、学术和科研机构的 AI 训练、推理工作负载和计算研究进行了优化。

经济高效的加速器,非常适合深度学习开发、数据分析以及科研和企业环境中的工作站级高性能计算部署。
第二代 CDNA™ 架构利用先进的芯片设计,为大规模并行处理工作负载提供卓越的计算密度和能效。
MI200 加速器提供优化的矩阵运算和混合精度计算,以加速深度学习训练、模型微调和推理部署。
第三代 AMD Infinity 架构实现了 GPU 计算单元与系统内存之间的高带宽、低延迟通信,从而最大限度地提高了数据吞吐量。
每个加速器最多可支持 8 个 AMD Infinity Fabric™ 链路,从而实现高速点对点 GPU 通信,用于多 GPU 训练和分布式计算工作负载。
部署在 HPE ProLiant 企业服务器上的 AMD Instinct 加速器可为生产 AI 和 HPC 工作负载提供运营商级可靠性和一致的性能。
利用快速硬件配置,按需扩展您的GPU基础设施。标准升级和额外容量通常会在24小时内部署完毕。
GPU 基础设施专家全天候可通过在线聊天和电子邮件协助进行部署、优化和故障排除。
| MI210 | L40S | A100 | H100 | |
|---|---|---|---|---|
| GPU架构 | CDNA 2.0 | 艾达·洛夫莱斯 | NVIDIA Ampere | 料斗 |
| GPU 显存 | 64GB HBM2e | 48GB GDDR6 | 80GB HBM2e | 80GB HBM3 |
| GPU内存带宽 | 1638 GB/s | 864 GB/s | 1935 GB/s | 3352 GB/s |
| FP32 | 22.63 TFLOPS | 91.6 TFLOPS | 19.5 TFLOPS | 51 TFLOPS |
| TF32 张量核心 | 312 TFLOPS | 366 TFLOPS | 312 TFLOPS | 756 TFLOPS |
| FP16/BF16 张量核心 | 181 TFLOPS | 733 TFLOPS | 624 TFLOPS | 1513 TFLOPS |
| 力量 | 最高可达300瓦 | 最高可达 350 瓦 | 最高可达 400 瓦 | 最高可达 350 瓦 |
| 加载中... | 加载中... | 加载中... | 加载中... |
获取有关部署和运行 AMD Instinct GPU 加速的裸机服务器以进行 AI 训练、推理和高性能计算应用的常见问题的答案。
AMD Instinct 加速器是企业级计算 GPU,专为人工智能、机器学习、大型语言模型和高性能计算应用而设计。它们基于针对计算而非图形优化的 CDNA 架构,在深度学习训练和推理、科学模拟、计算流体动力学、分子建模以及需要大规模并行处理能力的数据分析方面表现出色。
MI300A 代表了 AMD 最新的 APU 架构,它将 AMD Instinct GPU 与 24 核 AMD EPYC™ Zen 4 CPU 集成于统一的 192GB HBM3 内存基板上,并采用第三代 Infinity 架构。这消除了传统的 CPU-GPU 数据传输瓶颈。MI200 系列(MI250X、MI250、MI210)是独立 GPU 加速器,采用第二代 CDNA 架构和多芯片设计,每个 GPU 最多可提供 8 个 Infinity Fabric™ 链路,从而实现卓越的多加速器扩展性。
即时交付服务器通常在付款验证后的 3-10 分钟内完成配置。自定义配置会根据组件可用性进行部署。所有 AMD Instinct 服务器均支持即时操作系统重载,无需提交支持工单,从而实现快速迭代。网络基础设施针对持续高吞吐量工作负载和低延迟连接进行了优化。
AMD Instinct 加速器运行于 ROCm(Radeon Open Compute)之上,这是一个开源的 GPU 计算平台,支持 PyTorch、TensorFlow、JAX、ONNX Runtime 和其他主流机器学习框架。ROCm 包含 HIP(异构计算接口,用于可移植性),可轻松移植 CUDA 代码,并提供针对线性代数、FFT、随机数生成和深度神经网络的优化库。通过 Docker 和 Kubernetes 实现的全面容器支持,可实现生产级 AI/ML 部署。
MI300A APU 提供 192GB 统一的 HBM3(高带宽内存),可供 GPU 和 CPU 内核访问,从而消除数据密集型应用所需的内存传输开销。MI200 系列加速器配备高带宽 HBM2e 内存,专为大规模神经网络训练和推理而优化。如此强大的内存容量支持基础模型训练、处理海量数据集以及执行复杂的仿真,而无需进行主机和加速器之间的内存交换。