NVIDIA DGX B300: Architektur, Funktionen, Spezifikationen und ideale Einsatzbereiche

Cloud-Anbieter und Infrastrukturplattformen arbeiten kontinuierlich daran, moderne Technologien in ihren Umgebungen bereitzustellen. Diese Entwicklung reicht von grundlegenden Cloud-Services wie Speicherlösungen bis hin zu fortschrittlichen KI-Plattformen und groß angelegten Compute-Angeboten.

Viele KI-Umgebungen werden heute von einigen der leistungsfähigsten GPUs betrieben, die derzeit verfügbar sind, darunter Modelle wie die NVIDIA H200 und die AMD MI350X. Gleichzeitig entwickeln sich diese Technologien in hohem Tempo weiter, wobei jede neue Hardwaregeneration deutliche Leistungssteigerungen gegenüber ihrem Vorgänger mitbringt.

NVIDIA ist ein gutes Beispiel für dieses Innovationstempo. Frühere Generationen wie die NVIDIA Hopper H100 und NVIDIA H200 haben bereits hohe Maßstäbe gesetzt, doch inzwischen wurde mit NVIDIA Blackwell eine neue Mikroarchitektur vorgestellt. Gegenüber Hopper bietet Blackwell in mehreren zentralen Bereichen deutliche Fortschritte. Eines der wichtigsten Ergebnisse dieser Architektur ist das GPU-System NVIDIA DGX B300. Es zählt zu den leistungsstärksten kommerziell verfügbaren KI-Hardwaresystemen und ist als Hochleistungsplattform für moderne KI-Workloads und groß angelegte KI-Fabriken ausgelegt.

Dieser Beitrag beleuchtet den NVIDIA DGX B300 im Detail, erklärt seine technischen Spezifikationen, hebt seine wichtigsten neuen Fähigkeiten hervor und zeigt abschließend, in welchen Szenarien dieses System besonders sinnvoll eingesetzt werden kann. Damit bietet der Artikel einen tiefen Einblick in eine der aktuell meistdiskutierten Entwicklungen im Bereich der KI-Infrastruktur.

Systemüberblick: NVIDIA B300

In diesem Abschnitt wird der NVIDIA DGX B300 genauer betrachtet. Zunächst geht es um die Komponentenarchitektur und die Hardwarebasis, die dieses System so leistungsfähig machen. Anschließend werden die Fähigkeiten seiner GPUs und der Blackwell-Mikroarchitektur erläutert, die gemeinsam die Leistung über frühere Generationen hinaus steigern.

Hardware-Spezifikationen und Architektur des NVIDIA B300

Kategorie Spezifikation
System NVIDIA DGX B300
GPUs 8× NVIDIA Blackwell Ultra SXM
CPU Intel® Xeon® 6776P Prozessoren
Gesamter GPU-Speicher 2,1 TB
Leistung FP4 Tensor Core: 144 PFLOPS (sparse) | 108 PFLOPS (dense) FP8 Tensor Core: 72 PFLOPS (sparse)
NVIDIA NVLink™ Switch System
NVIDIA NVLink Bandbreite 14,4 TB/s aggregierte Bandbreite
Netzwerk 8× OSFP-Ports (8× Single-Port NVIDIA ConnectX-8 VPI, bis zu 800 Gb/s InfiniBand/Ethernet) 2× Dual-Port QSFP112 NVIDIA BlueField-3 DPU (bis zu 400 Gb/s InfiniBand/Ethernet)
Management-Netzwerk 1GbE Onboard-NIC mit RJ45 1GbE RJ45 Host BMC
Speicher OS: 2× 1,9 TB NVMe M.2 Intern: 8× 3,84 TB NVMe E1.S
Stromverbrauch ~14 kW
Software NVIDIA AI Enterprise NVIDIA Mission Control (mit NVIDIA Run:ai) NVIDIA DGX OS
Unterstützte Betriebssysteme Red Hat Enterprise Linux, Rocky Linux, Ubuntu
Höheneinheiten 10U
Support Drei Jahre Hardware- und Software-Support nach Business-Standard

Der NVIDIA Blackwell DGX B300 besteht aus einer hochmodernen Kombination technischer Komponenten. Im Zentrum des Systems arbeiten 8 NVIDIA Blackwell Ultra SXM GPUs zusammen mit Intel® Xeon® 6776P Prozessoren. Insgesamt stehen dadurch 2,1 TB GPU-Speicher zur Verfügung, wobei jede GPU mit 288 GB HBM3e-Speicher ausgestattet ist. Bei der reinen Rechenleistung erreicht die Plattform 144 PFLOPS (sparse) und 108 PFLOPS (dense) bei FP4-Tensor-Core-Operationen, während FP8-Tensor-Core-Workloads 72 PFLOPS (sparse) erreichen. Unterstützt wird dies durch eine enorme Bandbreite von 14,4 TB/s, während der Stromverbrauch bei etwa 14 kW liegt.

Architektur

An der Frontblende sind 12 AC-PSUs mit jeweils 3,3 kW montiert, die sich oberhalb des GPU-Trays befinden. Dieses Tray enthält die 8 einzelnen Blackwell Ultra SXM GPUs, die über dem Systemspeicher angeordnet sind. Im vorderen Bereich unterhalb der Blende befinden sich 2 BlueField 3 DPUs, M.2-Boot-Laufwerke, selbstverschlüsselnde Laufwerke und ein DC-SCM. Auf der Rückseite verfügt das Gerät über ein Backplane mit 20 angeschlossenen AC-Einheiten sowie den erforderlichen Anschlüssen für die Stromversorgung.

Funktionen des NVIDIA B300

Dieser Abschnitt stellt mehrere Blackwell-GPU- und B300-spezifische Funktionen vor, die das Potenzial dieses Systems verdeutlichen.

NVFP4-Quantisierung

Die 4-Bit-Quantisierung reduziert die numerische Präzision von Modellgewichten und Aktivierungen auf nur vier Bit. Das ist eine erhebliche Verringerung im Vergleich zu den verbreiteten 16-Bit- oder 32-Bit-Gleitkommaformaten. Blackwell-GPUs ermöglichen es, sowohl Inferenz- als auch Trainings-Workloads in diesem niedrigeren Präzisionsformat zu verarbeiten. Das Ergebnis ist ein deutlicher Geschwindigkeitsschub bei Trainings- und Inferenzaufgaben, ohne dass die Leistungsfähigkeit des Modells wesentlich beeinträchtigt wird.

Transformer Engine der zweiten Generation

Die NVIDIA Transformer Engine der zweiten Generation kombiniert Tensor-Core-Hardware der Blackwell-Generation mit Software-Optimierungen aus NVIDIA TensorRT-LLM und dem NeMo Framework, um sowohl Training als auch Inferenz für große Sprachmodelle und Mixture-of-Experts-Architekturen deutlich zu beschleunigen. Auf Basis von NVIDIA Blackwell Ultra Tensor Cores liefert die Plattform ungefähr die doppelte Beschleunigung in Attention-Layern und rund das 1,5-Fache des gesamten KI-Compute-Durchsatzes im Vergleich zu Standard-Blackwell-GPUs. Darüber hinaus führen diese Tensor Cores neue Präzisionsmodi ein, darunter community-definierte Microscaling-Formate, wodurch höherpräzise Datentypen ersetzt werden können, ohne die numerische Genauigkeit zu beeinträchtigen. Durch fein abgestimmtes Micro-Tensor-Scaling unterstützt die Blackwell Transformer Engine effizient die 4-Bit-Gleitkommaberechnung (FP4), sodass Modelle schneller ausgeführt und innerhalb derselben Speichergrenzen größer skaliert werden können, während die Genauigkeit hoch bleibt.

Decompression Engine

Früher wurden Datenbank- und Analyse-Workloads überwiegend von CPUs verarbeitet, doch GPU-beschleunigte Data Science kann die End-to-End-Performance deutlich verbessern, indem sie die Zeit bis zur Erkenntnis verkürzt und die gesamten Verarbeitungskosten senkt. Moderne Analyseplattformen und Datenbanksysteme, darunter auch Apache Spark, spielen eine zentrale Rolle beim Erfassen, Transformieren und Abfragen großer Datenmengen. NVIDIA Blackwell verbessert diese Abläufe durch eine dedizierte Decompression Engine und den Zugriff auf den großen Speicherpool der NVIDIA Grace™ CPU über eine ultraschnelle Interconnect-Verbindung mit bis zu 900 GB/s bidirektionaler Bandbreite. Zusammengenommen beschleunigen diese Technologien den gesamten Lebenszyklus von Analyse- und Datenbankabfragen und unterstützen zugleich moderne Kompressionsstandards wie LZ4, Snappy und Deflate, was zu höherem Durchsatz und effizienterer Datenverarbeitung führt.

Reliability, Availability, and Serviceability (RAS) Engine

NVIDIA Blackwell erhöht die Systemstabilität durch eine dedizierte Reliability, Availability, and Serviceability (RAS) Engine, die dafür entwickelt wurde, Hardware- und Softwareprobleme zu erkennen, bevor sie den produktiven Betrieb beeinträchtigen. Mithilfe KI-gestützter vorausschauender Verwaltung wertet die Plattform fortlaufend Tausende von Telemetriesignalen über den gesamten System-Stack hinweg aus, um den Zustand des Systems zu bewerten und Ausfälle, Ineffizienzen sowie unerwartete Unterbrechungen möglichst zu vermeiden. Zusätzlich liefert die RAS Engine detaillierte Diagnoseeinblicke, wodurch sich entstehende Probleme schneller lokalisieren, die Fehlerbehebung beschleunigen und Wartungsmaßnahmen gezielter planen lassen. Durch die schnelle Isolierung von Fehlern und die Unterstützung präziser Gegenmaßnahmen helfen die intelligenten Resilienzfunktionen von Blackwell dabei, Ausfallzeiten, operativen Aufwand sowie verschwendete Energie- und Compute-Ressourcen zu reduzieren.

Zusätzliche Merkmale

Merkmal Beschreibung
GPU 8 × NVIDIA B300 Blackwell Ultra GPUs
GPU-Speicher 8 × 288 GB = 2,3 TB gesamt
Leistung 72 PFLOPS FP8 (Training) 144 PFLOPS FP4 (Inferenz)
NVSwitch 2 × NVIDIA NVLink™ Interconnects der 5. Generation
CPUs 2 × Intel® Xeon® Platinum 6776P Prozessoren
Systemspeicher 2 TB standardmäßig (bis zu 4 TB)
Netzwerkanbindung & Geschwindigkeit 8 × OSFP-Ports verbunden mit 8 × NVIDIA® ConnectX®-8 Karten (Cluster-Netzwerk) 8 × 800 Gb/s InfiniBand/Ethernet 2 × Dual-Port NVIDIA® BlueField®-3 DPUs (Storage- & Management-Netzwerke) 2 × 400 Gb/s InfiniBand/Ethernet
Cache-Speicher 8 × E1.S 3,84 TB NVMe selbstverschlüsselnde Laufwerke
Boot-Speicher 2 × 1,92 TB M.2 NVMe (softwareverschlüsselbar)
Host-Management Onboard 1 GbE RJ-45 Ethernet
Remote-Systemverwaltung Baseboard Management Controller (BMC) 1 GbE RJ-45 Netzwerkanbindung Remote Keyboard, Video, Mouse (KVM) Remote Storage Redfish- und IPMI-Management
Betriebssystem DGX OS 7 auf Basis von Ubuntu 24.04 LTS Zusätzliche Unterstützung für Ubuntu, Red Hat Enterprise Linux 8 & 9 und Rocky Linux

Angetrieben von NVIDIA Blackwell Ultra GPUs ist der DGX B300 als integrierte Plattform für die hochperformante Inferenz und das Training großer Sprachmodelle konzipiert. Mit bis zu 144 PetaFLOPS Inferenzleistung bietet das System KI-Fähigkeiten auf Hyperscale-Niveau in einem unternehmensfähigen Formfaktor, sodass Organisationen unterschiedlicher Größe KI-Workloads in Echtzeit und auf produktivem Niveau ausführen können. Gleichzeitig wurde die Plattform mit Blick auf Flexibilität entwickelt, bietet verschiedene Optionen bei der Stromkonfiguration und eine starke Leistung pro Watt. Dadurch zählt sie zu den energieeffizientesten KI-Supercomputern, die derzeit verfügbar sind. Dank der überarbeiteten Architektur kann sie erstmals auch in NVIDIA MGX-Racks eingesetzt werden, was einen stärker standardisierten Infrastrukturansatz schafft und die Integration in Rechenzentren vereinfacht sowie Effizienz und Skalierbarkeit verbessert.

Im Kern der Plattform arbeiten NVIDIA Blackwell GPUs, die jeweils aus 208 Milliarden Transistoren bestehen, mit einem kundenspezifischen TSMC-4NP-Fertigungsprozess hergestellt werden und aus zwei reticle-limitierten Dies bestehen, die über einen einheitlichen Chip-zu-Chip-Interconnect mit 10 TB/s verbunden sind. Darüber hinaus bringt Blackwell ein hohes Maß an Sicherheit durch NVIDIA Confidential Computing mit, das einen hardwarebasierten Schutz für sensible Daten und KI-Modelle bei minimalem Leistungsverlust ermöglicht. Als erste GPU mit Unterstützung für TEE-I/O erlaubt Blackwell die sichere Ausführung von Training, Inferenz und föderiertem Lernen bei nahezu nativer Performance, auch über geschützte NVIDIA-NVLink-Verbindungen hinweg. Um KI auf Exascale-Niveau zu unterstützen, ermöglicht NVIDIA NVLink der fünften Generation eine schnelle und ausgewogene Kommunikation über bis zu 576 GPUs hinweg. Der NVLink Switch Chip liefert bis zu 130 TB/s Bandbreite innerhalb einer 72-GPU-NVLink-Domäne und erweitert dieselbe 1,8-TB/s-Interconnect-Verbindung auf Multi-Node-Cluster. Dadurch wird es möglich, bis zu neunmal höheren GPU-Durchsatz als in einem einzelnen Acht-GPU-System zu erreichen, während die Kommunikation durch SHARP-FP8-Beschleunigung effizient bleibt.

Wann der NVIDIA B300 eingesetzt werden sollte

Zusammengefasst gehört dieses System zu den leistungsstärksten HPC-Hardwarelösungen, die aktuell auf dem Markt verfügbar sind. Daraus lassen sich mehrere wesentliche Schlussfolgerungen ableiten:

  • Da es sich um eines der leistungsfähigsten kommerziell erhältlichen Systeme handelt, gehört es auch zu den stärksten Optionen für anspruchsvolle Workloads. Eine große Bandbreite an Problemen lässt sich auf dieser Plattform häufig schneller bearbeiten als auf Systemen einer niedrigeren Leistungsklasse.
  • NVFP4 macht das System besonders geeignet für Low-Precision-Workloads wie umfangreiche Pre-Training-Aufgaben.
  • Im Betrieb ist es jedoch kostenintensiver als GPUs früherer Generationen, wenn sowohl die anfänglichen Anschaffungskosten als auch der Energiebedarf berücksichtigt werden.

Aus diesen Punkten lässt sich ableiten, dass der NVIDIA B300 für nahezu jedes High-Performance-KI-Szenario eine starke Wahl darstellt. Besonders geeignet ist das System für das Training oder die Bereitstellung sehr großer KI-Modelle. Seine höhere Bandbreite und die erweiterte Speicherkapazität im Vergleich zu konkurrierenden Lösungen machen ihn zu einer hervorragenden Option für den Umgang mit groß angelegten Modellen.

Abschließende Gedanken

Wie dieser Beitrag gezeigt hat, markiert der NVIDIA B300 einen wichtigen Wendepunkt in der modernen KI-Infrastruktur. Das System vereint außergewöhnliche Rechendichte, enorme Speicherkapazität und fortschrittliche Architekturinnovationen, um die Möglichkeiten für Training und Inferenz im großen Maßstab deutlich zu erweitern. Auch wenn sein Leistungsprofil und seine Kosten ihn klar in die Kategorie ernsthafter Enterprise- und Forschungs-Hardware einordnen, können Teams, die an den Grenzen von Modellgröße, Durchsatz und Latenz arbeiten, erheblich von der außergewöhnlichen Pro-System-Leistung profitieren.

Quelle: digitalocean.com

Jetzt 200€ Guthaben sichern

Registrieren Sie sich jetzt in unserer ccloud³ und erhalten Sie 200€ Startguthaben für Ihr Projekt.

Das könnte Sie auch interessieren:

Moderne Hosting Services mit Cloud Server, Managed Server und skalierbarem Cloud Hosting für professionelle IT-Infrastrukturen

Coreflux MQTT Broker mit Managed Databases einrichten

Databases, Tutorial
Vijonavor 2 Stunden Coreflux MQTT Broker mit Managed Databases für IoT-Datenverarbeitung bereitstellen MQTT Broker verbinden IoT-Geräte und Anwendungen über ein Publish-Subscribe-Messaging-Modell und sind damit ein zentraler Bestandteil moderner IoT-Infrastrukturen. Coreflux erweitert…