NVIDIA DGX B300: Architektur, Funktionen, Spezifikationen und ideale Einsatzbereiche
Cloud-Anbieter und Infrastrukturplattformen arbeiten kontinuierlich daran, moderne Technologien in ihren Umgebungen bereitzustellen. Diese Entwicklung reicht von grundlegenden Cloud-Services wie Speicherlösungen bis hin zu fortschrittlichen KI-Plattformen und groß angelegten Compute-Angeboten.
Viele KI-Umgebungen werden heute von einigen der leistungsfähigsten GPUs betrieben, die derzeit verfügbar sind, darunter Modelle wie die NVIDIA H200 und die AMD MI350X. Gleichzeitig entwickeln sich diese Technologien in hohem Tempo weiter, wobei jede neue Hardwaregeneration deutliche Leistungssteigerungen gegenüber ihrem Vorgänger mitbringt.
NVIDIA ist ein gutes Beispiel für dieses Innovationstempo. Frühere Generationen wie die NVIDIA Hopper H100 und NVIDIA H200 haben bereits hohe Maßstäbe gesetzt, doch inzwischen wurde mit NVIDIA Blackwell eine neue Mikroarchitektur vorgestellt. Gegenüber Hopper bietet Blackwell in mehreren zentralen Bereichen deutliche Fortschritte. Eines der wichtigsten Ergebnisse dieser Architektur ist das GPU-System NVIDIA DGX B300. Es zählt zu den leistungsstärksten kommerziell verfügbaren KI-Hardwaresystemen und ist als Hochleistungsplattform für moderne KI-Workloads und groß angelegte KI-Fabriken ausgelegt.
Dieser Beitrag beleuchtet den NVIDIA DGX B300 im Detail, erklärt seine technischen Spezifikationen, hebt seine wichtigsten neuen Fähigkeiten hervor und zeigt abschließend, in welchen Szenarien dieses System besonders sinnvoll eingesetzt werden kann. Damit bietet der Artikel einen tiefen Einblick in eine der aktuell meistdiskutierten Entwicklungen im Bereich der KI-Infrastruktur.
Systemüberblick: NVIDIA B300
In diesem Abschnitt wird der NVIDIA DGX B300 genauer betrachtet. Zunächst geht es um die Komponentenarchitektur und die Hardwarebasis, die dieses System so leistungsfähig machen. Anschließend werden die Fähigkeiten seiner GPUs und der Blackwell-Mikroarchitektur erläutert, die gemeinsam die Leistung über frühere Generationen hinaus steigern.
Hardware-Spezifikationen und Architektur des NVIDIA B300
| Kategorie | Spezifikation |
|---|---|
| System | NVIDIA DGX B300 |
| GPUs | 8× NVIDIA Blackwell Ultra SXM |
| CPU | Intel® Xeon® 6776P Prozessoren |
| Gesamter GPU-Speicher | 2,1 TB |
| Leistung | FP4 Tensor Core: 144 PFLOPS (sparse) | 108 PFLOPS (dense) FP8 Tensor Core: 72 PFLOPS (sparse) |
| NVIDIA NVLink™ Switch System | 2× |
| NVIDIA NVLink Bandbreite | 14,4 TB/s aggregierte Bandbreite |
| Netzwerk | 8× OSFP-Ports (8× Single-Port NVIDIA ConnectX-8 VPI, bis zu 800 Gb/s InfiniBand/Ethernet) 2× Dual-Port QSFP112 NVIDIA BlueField-3 DPU (bis zu 400 Gb/s InfiniBand/Ethernet) |
| Management-Netzwerk | 1GbE Onboard-NIC mit RJ45 1GbE RJ45 Host BMC |
| Speicher | OS: 2× 1,9 TB NVMe M.2 Intern: 8× 3,84 TB NVMe E1.S |
| Stromverbrauch | ~14 kW |
| Software | NVIDIA AI Enterprise NVIDIA Mission Control (mit NVIDIA Run:ai) NVIDIA DGX OS |
| Unterstützte Betriebssysteme | Red Hat Enterprise Linux, Rocky Linux, Ubuntu |
| Höheneinheiten | 10U |
| Support | Drei Jahre Hardware- und Software-Support nach Business-Standard |
Der NVIDIA Blackwell DGX B300 besteht aus einer hochmodernen Kombination technischer Komponenten. Im Zentrum des Systems arbeiten 8 NVIDIA Blackwell Ultra SXM GPUs zusammen mit Intel® Xeon® 6776P Prozessoren. Insgesamt stehen dadurch 2,1 TB GPU-Speicher zur Verfügung, wobei jede GPU mit 288 GB HBM3e-Speicher ausgestattet ist. Bei der reinen Rechenleistung erreicht die Plattform 144 PFLOPS (sparse) und 108 PFLOPS (dense) bei FP4-Tensor-Core-Operationen, während FP8-Tensor-Core-Workloads 72 PFLOPS (sparse) erreichen. Unterstützt wird dies durch eine enorme Bandbreite von 14,4 TB/s, während der Stromverbrauch bei etwa 14 kW liegt.
Architektur
An der Frontblende sind 12 AC-PSUs mit jeweils 3,3 kW montiert, die sich oberhalb des GPU-Trays befinden. Dieses Tray enthält die 8 einzelnen Blackwell Ultra SXM GPUs, die über dem Systemspeicher angeordnet sind. Im vorderen Bereich unterhalb der Blende befinden sich 2 BlueField 3 DPUs, M.2-Boot-Laufwerke, selbstverschlüsselnde Laufwerke und ein DC-SCM. Auf der Rückseite verfügt das Gerät über ein Backplane mit 20 angeschlossenen AC-Einheiten sowie den erforderlichen Anschlüssen für die Stromversorgung.
Funktionen des NVIDIA B300
Dieser Abschnitt stellt mehrere Blackwell-GPU- und B300-spezifische Funktionen vor, die das Potenzial dieses Systems verdeutlichen.
NVFP4-Quantisierung
Die 4-Bit-Quantisierung reduziert die numerische Präzision von Modellgewichten und Aktivierungen auf nur vier Bit. Das ist eine erhebliche Verringerung im Vergleich zu den verbreiteten 16-Bit- oder 32-Bit-Gleitkommaformaten. Blackwell-GPUs ermöglichen es, sowohl Inferenz- als auch Trainings-Workloads in diesem niedrigeren Präzisionsformat zu verarbeiten. Das Ergebnis ist ein deutlicher Geschwindigkeitsschub bei Trainings- und Inferenzaufgaben, ohne dass die Leistungsfähigkeit des Modells wesentlich beeinträchtigt wird.
Transformer Engine der zweiten Generation
Die NVIDIA Transformer Engine der zweiten Generation kombiniert Tensor-Core-Hardware der Blackwell-Generation mit Software-Optimierungen aus NVIDIA TensorRT-LLM und dem NeMo Framework, um sowohl Training als auch Inferenz für große Sprachmodelle und Mixture-of-Experts-Architekturen deutlich zu beschleunigen. Auf Basis von NVIDIA Blackwell Ultra Tensor Cores liefert die Plattform ungefähr die doppelte Beschleunigung in Attention-Layern und rund das 1,5-Fache des gesamten KI-Compute-Durchsatzes im Vergleich zu Standard-Blackwell-GPUs. Darüber hinaus führen diese Tensor Cores neue Präzisionsmodi ein, darunter community-definierte Microscaling-Formate, wodurch höherpräzise Datentypen ersetzt werden können, ohne die numerische Genauigkeit zu beeinträchtigen. Durch fein abgestimmtes Micro-Tensor-Scaling unterstützt die Blackwell Transformer Engine effizient die 4-Bit-Gleitkommaberechnung (FP4), sodass Modelle schneller ausgeführt und innerhalb derselben Speichergrenzen größer skaliert werden können, während die Genauigkeit hoch bleibt.
Decompression Engine
Früher wurden Datenbank- und Analyse-Workloads überwiegend von CPUs verarbeitet, doch GPU-beschleunigte Data Science kann die End-to-End-Performance deutlich verbessern, indem sie die Zeit bis zur Erkenntnis verkürzt und die gesamten Verarbeitungskosten senkt. Moderne Analyseplattformen und Datenbanksysteme, darunter auch Apache Spark, spielen eine zentrale Rolle beim Erfassen, Transformieren und Abfragen großer Datenmengen. NVIDIA Blackwell verbessert diese Abläufe durch eine dedizierte Decompression Engine und den Zugriff auf den großen Speicherpool der NVIDIA Grace™ CPU über eine ultraschnelle Interconnect-Verbindung mit bis zu 900 GB/s bidirektionaler Bandbreite. Zusammengenommen beschleunigen diese Technologien den gesamten Lebenszyklus von Analyse- und Datenbankabfragen und unterstützen zugleich moderne Kompressionsstandards wie LZ4, Snappy und Deflate, was zu höherem Durchsatz und effizienterer Datenverarbeitung führt.
Reliability, Availability, and Serviceability (RAS) Engine
NVIDIA Blackwell erhöht die Systemstabilität durch eine dedizierte Reliability, Availability, and Serviceability (RAS) Engine, die dafür entwickelt wurde, Hardware- und Softwareprobleme zu erkennen, bevor sie den produktiven Betrieb beeinträchtigen. Mithilfe KI-gestützter vorausschauender Verwaltung wertet die Plattform fortlaufend Tausende von Telemetriesignalen über den gesamten System-Stack hinweg aus, um den Zustand des Systems zu bewerten und Ausfälle, Ineffizienzen sowie unerwartete Unterbrechungen möglichst zu vermeiden. Zusätzlich liefert die RAS Engine detaillierte Diagnoseeinblicke, wodurch sich entstehende Probleme schneller lokalisieren, die Fehlerbehebung beschleunigen und Wartungsmaßnahmen gezielter planen lassen. Durch die schnelle Isolierung von Fehlern und die Unterstützung präziser Gegenmaßnahmen helfen die intelligenten Resilienzfunktionen von Blackwell dabei, Ausfallzeiten, operativen Aufwand sowie verschwendete Energie- und Compute-Ressourcen zu reduzieren.
Zusätzliche Merkmale
| Merkmal | Beschreibung |
|---|---|
| GPU | 8 × NVIDIA B300 Blackwell Ultra GPUs |
| GPU-Speicher | 8 × 288 GB = 2,3 TB gesamt |
| Leistung | 72 PFLOPS FP8 (Training) 144 PFLOPS FP4 (Inferenz) |
| NVSwitch | 2 × NVIDIA NVLink™ Interconnects der 5. Generation |
| CPUs | 2 × Intel® Xeon® Platinum 6776P Prozessoren |
| Systemspeicher | 2 TB standardmäßig (bis zu 4 TB) |
| Netzwerkanbindung & Geschwindigkeit | 8 × OSFP-Ports verbunden mit 8 × NVIDIA® ConnectX®-8 Karten (Cluster-Netzwerk) 8 × 800 Gb/s InfiniBand/Ethernet 2 × Dual-Port NVIDIA® BlueField®-3 DPUs (Storage- & Management-Netzwerke) 2 × 400 Gb/s InfiniBand/Ethernet |
| Cache-Speicher | 8 × E1.S 3,84 TB NVMe selbstverschlüsselnde Laufwerke |
| Boot-Speicher | 2 × 1,92 TB M.2 NVMe (softwareverschlüsselbar) |
| Host-Management | Onboard 1 GbE RJ-45 Ethernet |
| Remote-Systemverwaltung | Baseboard Management Controller (BMC) 1 GbE RJ-45 Netzwerkanbindung Remote Keyboard, Video, Mouse (KVM) Remote Storage Redfish- und IPMI-Management |
| Betriebssystem | DGX OS 7 auf Basis von Ubuntu 24.04 LTS Zusätzliche Unterstützung für Ubuntu, Red Hat Enterprise Linux 8 & 9 und Rocky Linux |
Angetrieben von NVIDIA Blackwell Ultra GPUs ist der DGX B300 als integrierte Plattform für die hochperformante Inferenz und das Training großer Sprachmodelle konzipiert. Mit bis zu 144 PetaFLOPS Inferenzleistung bietet das System KI-Fähigkeiten auf Hyperscale-Niveau in einem unternehmensfähigen Formfaktor, sodass Organisationen unterschiedlicher Größe KI-Workloads in Echtzeit und auf produktivem Niveau ausführen können. Gleichzeitig wurde die Plattform mit Blick auf Flexibilität entwickelt, bietet verschiedene Optionen bei der Stromkonfiguration und eine starke Leistung pro Watt. Dadurch zählt sie zu den energieeffizientesten KI-Supercomputern, die derzeit verfügbar sind. Dank der überarbeiteten Architektur kann sie erstmals auch in NVIDIA MGX-Racks eingesetzt werden, was einen stärker standardisierten Infrastrukturansatz schafft und die Integration in Rechenzentren vereinfacht sowie Effizienz und Skalierbarkeit verbessert.
Im Kern der Plattform arbeiten NVIDIA Blackwell GPUs, die jeweils aus 208 Milliarden Transistoren bestehen, mit einem kundenspezifischen TSMC-4NP-Fertigungsprozess hergestellt werden und aus zwei reticle-limitierten Dies bestehen, die über einen einheitlichen Chip-zu-Chip-Interconnect mit 10 TB/s verbunden sind. Darüber hinaus bringt Blackwell ein hohes Maß an Sicherheit durch NVIDIA Confidential Computing mit, das einen hardwarebasierten Schutz für sensible Daten und KI-Modelle bei minimalem Leistungsverlust ermöglicht. Als erste GPU mit Unterstützung für TEE-I/O erlaubt Blackwell die sichere Ausführung von Training, Inferenz und föderiertem Lernen bei nahezu nativer Performance, auch über geschützte NVIDIA-NVLink-Verbindungen hinweg. Um KI auf Exascale-Niveau zu unterstützen, ermöglicht NVIDIA NVLink der fünften Generation eine schnelle und ausgewogene Kommunikation über bis zu 576 GPUs hinweg. Der NVLink Switch Chip liefert bis zu 130 TB/s Bandbreite innerhalb einer 72-GPU-NVLink-Domäne und erweitert dieselbe 1,8-TB/s-Interconnect-Verbindung auf Multi-Node-Cluster. Dadurch wird es möglich, bis zu neunmal höheren GPU-Durchsatz als in einem einzelnen Acht-GPU-System zu erreichen, während die Kommunikation durch SHARP-FP8-Beschleunigung effizient bleibt.
Wann der NVIDIA B300 eingesetzt werden sollte
Zusammengefasst gehört dieses System zu den leistungsstärksten HPC-Hardwarelösungen, die aktuell auf dem Markt verfügbar sind. Daraus lassen sich mehrere wesentliche Schlussfolgerungen ableiten:
- Da es sich um eines der leistungsfähigsten kommerziell erhältlichen Systeme handelt, gehört es auch zu den stärksten Optionen für anspruchsvolle Workloads. Eine große Bandbreite an Problemen lässt sich auf dieser Plattform häufig schneller bearbeiten als auf Systemen einer niedrigeren Leistungsklasse.
- NVFP4 macht das System besonders geeignet für Low-Precision-Workloads wie umfangreiche Pre-Training-Aufgaben.
- Im Betrieb ist es jedoch kostenintensiver als GPUs früherer Generationen, wenn sowohl die anfänglichen Anschaffungskosten als auch der Energiebedarf berücksichtigt werden.
Aus diesen Punkten lässt sich ableiten, dass der NVIDIA B300 für nahezu jedes High-Performance-KI-Szenario eine starke Wahl darstellt. Besonders geeignet ist das System für das Training oder die Bereitstellung sehr großer KI-Modelle. Seine höhere Bandbreite und die erweiterte Speicherkapazität im Vergleich zu konkurrierenden Lösungen machen ihn zu einer hervorragenden Option für den Umgang mit groß angelegten Modellen.
Abschließende Gedanken
Wie dieser Beitrag gezeigt hat, markiert der NVIDIA B300 einen wichtigen Wendepunkt in der modernen KI-Infrastruktur. Das System vereint außergewöhnliche Rechendichte, enorme Speicherkapazität und fortschrittliche Architekturinnovationen, um die Möglichkeiten für Training und Inferenz im großen Maßstab deutlich zu erweitern. Auch wenn sein Leistungsprofil und seine Kosten ihn klar in die Kategorie ernsthafter Enterprise- und Forschungs-Hardware einordnen, können Teams, die an den Grenzen von Modellgröße, Durchsatz und Latenz arbeiten, erheblich von der außergewöhnlichen Pro-System-Leistung profitieren.


