Blackwell (Grafikprozessor)

Blackwell ist der Name einer im Jahr 2024 von Nvidia vorgestellten Mikroarchitektur. Sie wurde nach dem Mathematiker David Blackwell benannt. Das System ist dafür ausgelegt, Training und Inferencing von Large Language Models sowie die Performance komplexer Datenbank-Operationen zu verbessern. NVIDIA gibt an, die Performance für Inferencing um das 30-fache erhöht und die Energieeffizienz um einen Faktor von bis zu 25 verbessert zu haben. Die Spitzenleistung eines GB200-Chips liegt bei 20 petaFLOPS. Für ein Board werden zwei GB200 GPUs mit einer Grace CPU kombiniert; Grace beinhaltet 144 Arm Neoverse CPU-Kerne.

Blackwell-Chips werden bei TSMC unter Anwendung des CoWoS-L Prozesses hergestellt.

Es wurden folgende neue Funktionen und Technologien eingeführt:

  • Für eine Blackwell GB200 GPU werden zwei Dies zu einem Chip verbunden. Dies ist nötig, da bereits jeder der beiden Dies die produktionstechnisch maximale Größe für eine Fotomaske ausnutzt. Eine GB 200 GPU hat mit 208 Milliarden Transistoren mehr als 2,5 mal so viele Transistoren wie Hopper hatte. Die Herstellung erfolgt auf Basis des 4NP-Prozesses von TSMC.
  • Die 5. Generation von NVLink ermöglicht eine Kommunikation von GPU zu GPU mit bis zu 1,8 TB/sec; dies ist doppelt so schnell wie die bei Hopper eingesetzte 4. Generation NVLink war. Bis zu 576 GPUs können damit verknüpft werden.
  • Der neue NV-Link Switch ermöglicht ein Switching mit einer Bandbreite von 14,4 TB/s.
  • Nvidia Confidential Computing ermöglicht eine sichere Kommunikation basierend auf einer hardwarebasierten Verschlüsselung.
  • Die neue Decompression Engine kann bis zu 800 GB/s entpacken, was im Zusammenwirken mit 8 Stapeln des schnellen HBM3e-Speichers und dem Hochleistungs-Bus-System, Datenbankabfragen und Analysen signifikant beschleunigt.
  • Die zweite Generation der Transformer-Engine ermöglicht eine verbesserte Performance bei Training und Inferencing von LLMs und Mixture-of-Experts-Modellen mit bis zu 10 Billionen Parametern. Zum Vergleich: GPT-4 hat 1,8 Billionen Parameter.
  • Blackwells neue Gleitkommaeinheit unterstützt nun auch 6-Bit und 4-Bit-Datentypen, was das Training und Inferencing weiter beschleunigt.
  • Eine dedizierte RAS-Engine (Reliability, Availability and Servicabiltity) verfügt u. a. über tausende von Sensoren; damit sollen Fehler frühzeitig erkannt und eingegrenzt werden können, womit Ausfallzeiten minimiert werden.
  1. Phil Garrou: Why Nvidia’s Blackwell is Having Issues with TSMC CoWoS-L. 2. Oktober 2024, abgerufen am 14. Oktober 2024 (amerikanisches Englisch).
  2. Maximilian Schreiner: GPT-4 architecture, datasets, costs and more leaked. 11. Juli 2023, abgerufen am 9. April 2024 (amerikanisches Englisch).