Maximaler Rechendurchsatz
Die CDNA3-Architektur bietet bahnbrechende Rechenleistung für Deep-Learning-Training, LLM-Feinabstimmung und wissenschaftliche Rechenlasten, die einen maximalen Durchsatz erfordern.
Setzen Sie HPE-Bare-Metal-Server der Enterprise-Klasse mit AMD Instinct-Beschleunigern für Machine Learning, LLM-Inferenz und High-Performance-Computing-Workloads ein.
Entwickelt für künstliche Intelligenz, maschinelles Lernen und den Einsatz großer Sprachmodelle. AMD Instinct GPU-Server kombinieren die CDNA3-Rechenarchitektur mit Zen 4-CPU-Kernen und 192 GB HBM3-Speicher für intensive KI-Trainings-, Inferenz- und HPC-Anwendungen.
Die CDNA3-Architektur bietet bahnbrechende Rechenleistung für Deep-Learning-Training, LLM-Feinabstimmung und wissenschaftliche Rechenlasten, die einen maximalen Durchsatz erfordern.
Das integrierte Design, das die AMD Instinct GPU mit der 24-Kern-EPYC™ Zen 4 CPU kombiniert, beseitigt die herkömmlichen Engpässe beim Datentransfer zwischen CPU und GPU und sorgt so für überlegene Effizienz und Programmierbarkeit.
Der 192 GB große HBM3-Verbundspeicher ermöglicht das Training und die Inferenz von groß angelegten KI-Modellen ohne Speicherbeschränkungen und unterstützt komplexe Arbeitslasten mit umfangreichen Datensätzen.
Enterprise-Beschleuniger auf Basis der CDNA-2-Architektur für Exascale-Computing und KI-Workloads

Der Flaggschiff-Beschleuniger der MI200-Serie liefert Exascale-Leistung für fortgeschrittene HPC-Simulationen, Molekulardynamik und KI-Forschungsanwendungen.

Produktionsreifer Beschleuniger, optimiert für KI-Training, Inferenz-Workloads und computergestützte Forschung in Unternehmen, akademischen Einrichtungen und wissenschaftlichen Institutionen.

Kostengünstiger Beschleuniger, ideal für die Entwicklung von Deep Learning, Datenanalyse und HPC-Implementierungen der Workstation-Klasse in Forschungs- und Unternehmensumgebungen.
Die CDNA™-Architektur der 2. Generation nutzt ein fortschrittliches Chiplet-Design und bietet so eine außergewöhnliche Rechendichte und Energieeffizienz für parallele Verarbeitungsworkloads in großem Umfang.
MI200-Beschleuniger bieten optimierte Matrixoperationen und Mixed-Precision-Rechenleistung für beschleunigtes Deep-Learning-Training, Modell-Feinabstimmung und Inferenz-Deployment.
Die AMD Infinity-Architektur der 3. Generation ermöglicht eine Kommunikation mit hoher Bandbreite und geringer Latenz zwischen den GPU-Recheneinheiten und dem Systemspeicher für einen maximalen Datendurchsatz.
Bis zu 8 AMD Infinity Fabric™-Verbindungen pro Beschleuniger ermöglichen eine schnelle Peer-to-Peer-GPU-Kommunikation für Multi-GPU-Training und verteilte Rechenlasten.
Die auf HPE ProLiant Enterprise-Servern eingesetzten AMD Instinct-Beschleuniger bieten Zuverlässigkeit auf Carrier-Niveau und eine konstante Leistung für KI- und HPC-Workloads in der Produktion.
Skalieren Sie Ihre GPU-Infrastruktur bedarfsgerecht mit schneller Hardwarebereitstellung. Standard-Upgrades und zusätzliche Kapazitäten werden in der Regel innerhalb von 24 Stunden bereitgestellt.
GPU-Infrastrukturspezialisten stehen Ihnen rund um die Uhr per Live-Chat und E-Mail zur Verfügung, um Sie bei der Bereitstellung, Optimierung und Fehlerbehebung zu unterstützen.
| MI210 | L40S | A100 | H100 | |
|---|---|---|---|---|
| GPU-Architektur | CDNA 2.0 | Ada Lovelace | NVIDIA Ampere | Trichter |
| GPU-Speicher | 64 GB HBM2e | 48 GB GDDR6 | 80 GB HBM2e | 80 GB HBM3 |
| GPU-Speicherbandbreite | 1638 GB/s | 864 GB/s | 1935 GB/s | 3352 GB/s |
| FP32 | 22,63 TFLOPS | 91,6 TFLOPS | 19,5 TFLOPS | 51 TFLOPS |
| TF32 Tensor Core | 312 TFLOPS | 366 TFLOPS | 312 TFLOPS | 756 TFLOPS |
| FP16/BF16 Tensor Core | 181 TFLOPS | 733 TFLOPS | 624 TFLOPS | 1513 TFLOPS |
| Leistung | Bis zu 300 W | Bis zu 350 W | Bis zu 400 W | Bis zu 350 W |
| Laden... | Laden... | Laden... | Laden... |
Hier finden Sie Antworten auf häufig gestellte Fragen zur Bereitstellung und zum Betrieb von AMD Instinct GPU-beschleunigten Bare-Metal-Servern für KI-Training, Inferenz und High-Performance-Computing-Anwendungen.
AMD Instinct-Beschleuniger sind Rechen-GPUs der Enterprise-Klasse, die speziell für Anwendungen in den Bereichen Künstliche Intelligenz, Maschinelles Lernen, große Sprachmodelle und Hochleistungsrechnen entwickelt wurden. Basierend auf der CDNA-Architektur, die für Rechenleistung und nicht für Grafik optimiert ist, eignen sie sich hervorragend für Deep-Learning-Training und -Inferenz, wissenschaftliche Simulationen, numerische Strömungsmechanik, Molekülmodellierung und Datenanalysen, die massive Parallelverarbeitung erfordern.
Die MI300A repräsentiert AMDs neueste APU-Architektur und integriert die AMD Instinct GPU mit einer 24-Kern-AMD-EPYC™-Zen-4-CPU auf einem einheitlichen 192-GB-HBM3-Speichersubstrat, das auf der Infinity-Architektur der 3. Generation basiert. Dadurch werden herkömmliche Datentransferengpässe zwischen CPU und GPU beseitigt. Die MI200-Serie (MI250X, MI250, MI210) umfasst diskrete GPU-Beschleuniger mit CDNA-Architektur der 2. Generation und Multi-Chip-Design. Sie bieten bis zu 8 Infinity Fabric™-Verbindungen pro GPU für außergewöhnliche Skalierbarkeit mehrerer Beschleuniger.
Server für die Sofortbereitstellung werden in der Regel innerhalb von 3–10 Minuten nach Zahlungsbestätigung bereitgestellt. Kundenspezifische Konfigurationen werden je nach Verfügbarkeit der Komponenten implementiert. Alle AMD Instinct-Server unterstützen das sofortige Neuladen des Betriebssystems ohne Support-Tickets und ermöglichen so schnelle Iterationen. Die Netzwerkinfrastruktur ist für dauerhaft hohe Durchsatzlasten und geringe Latenz optimiert.
AMD Instinct-Beschleuniger laufen auf ROCm (Radeon Open Compute), einer Open-Source-GPU-Computing-Plattform, die PyTorch, TensorFlow, JAX, ONNX Runtime und weitere führende ML-Frameworks unterstützt. ROCm beinhaltet HIP (Heterogeneous-Compute Interface for Portability) für die einfache Portierung von CUDA-Code sowie optimierte Bibliotheken für lineare Algebra, FFT, Zufallszahlengenerierung und tiefe neuronale Netze. Die vollständige Container-Unterstützung über Docker und Kubernetes ermöglicht den Einsatz von KI/ML-Anwendungen im Produktionsmaßstab.
Die MI300A APU bietet 192 GB einheitlichen HBM3-Speicher (High Bandwidth Memory), der sowohl von GPU- als auch von CPU-Kernen genutzt werden kann. Dadurch entfällt der Speichertransfer-Overhead bei datenintensiven Anwendungen. Die Beschleuniger der MI200-Serie verfügen über HBM2e-Speicher mit hoher Bandbreite, der für das Training und die Inferenz großer neuronaler Netze optimiert ist. Diese beträchtliche Speicherkapazität unterstützt das Training von Basismodellen, die Verarbeitung umfangreicher Datensätze und die Ausführung komplexer Simulationen ohne Speicherverschiebungen zwischen Host und Beschleuniger.