Navigation in ultrahochdichten 400- und 800-Gigabit-Netzwerken in KI-Rechenzentrumsumgebungen

6. Oktober 2025 / Allgemeines, Lernen, Installation und Testen, Best Practices

Künstliche Intelligenz (KI) verändert das Rechenzentrum rasant. Vom Training großer Sprachmodelle (LLMs) wie ChatGPT bis hin zur Bereitstellung personalisierter Inhalte und prädiktiver Analysen bauen Hyperscaler, Cloud-Anbieter und große Unternehmen High-Performance-Computing-Netzwerke (HPC) auf, die beschleunigte parallele Verarbeitung nutzen, um das Potenzial von KI freizusetzen. Sehen wir uns an, wie diese KI-Netzwerke bereitgestellt werden und welche Herausforderungen sie bei der Kabelprüfung mit sich bringen.

Abbildung eines Gangs in einem Rechenzentrum, in dem künstliche Intelligenz läuft, mit großen AI-Initialen in der Mitte des Bildes.

Die zwei Seiten der KI-Vernetzung: Backend und Frontend

KI im Rechenzentrum basiert auf zwei unterschiedlichen Netzwerkansätzen: das Backend für intensives Training und das Frontend für reale Inferenz. Während des Trainings lernen KI-Modelle, Muster zu erkennen, Vorhersagen zu treffen und Schlussfolgerungen zu ziehen, indem sie riesige Datensätze über miteinander verbundene leistungsstarke Grafikprozessoren (GPUs) in einem KI-Cluster oder GPU-Gewebe / Gebilde / Gefüge analysieren. Dieser rechenintensive Prozess erfordert eine Datenübertragung mit hoher Bandbreite und geringer Latenz zwischen GPUs für ein effizientes Modelltraining und schnellere Erkenntnisse / Einblicke.

Sobald ein KI-Modell trainiert ist, wird es im Rahmen der Inferenz in die Tat umgesetzt, indem es auf Benutzeranfragen reagiert und aus neuen Informationen Schlussfolgerungen zieht. Dieser Vorgang ist deutlich weniger rechenintensiv. Denken Sie beispielsweise an eine Identifikations-App für Hunderassen: Beim Training lernt das KI-Modell, Hunderassen zu erkennen, indem es Zehntausende beschriftete Bilder analysiert. Bei der Inferenz hingegen identifiziert das Modell ein neues Bild eines Hundes, das Sie ihm senden.

Das rechenintensive Training innerhalb von KI-Clustern erfolgt in einem Backend-Rechenzentrumsnetzwerk, einer dedizierten, geschlossenen Umgebung, die für die schnelle GPU-Datenübertragung und -verarbeitung konzipiert ist. Im Gegensatz dazu verbindet das Frontend-Netzwerk KI-Systeme zur Inferenz mit der Außenwelt und verarbeitet Benutzeranfragen neben anderen allgemeinen Rechenzentrums-Arbeitsbelastungen (wie Webhosting, E-Mail und Speicher). Diese beiden Netzwerke arbeiten zusammen, um Datenübertragung, Speicher / Speicherung / Archivierung / Lagerung und Benutzerinteraktionen zu verwalten.

Frontend- und Backend-Netzwerkarchitekturen weisen einige Unterschiede auf:

  • • Frontend-Netzwerke verwenden eine traditionelle dreistufige oder Leaf-Spine-Ethernet-Architektur, die verschiedene Funktionsbereiche für die Abgrenzung von Dienstanbietern, Switch-Ebenen, Speichergeräte und grundlegende CPU-basierte Server umfasst. Switch-to-Switch-Verbindungen verwenden hier typischerweise Singlemode- oder Multimode-Glasfaser mit Multifaser-MPO-Konnektivität für 100 bis 400 Gig, während Switch-to-Server-Verbindungen eher 25 bis 100 Gig über Duplex-Multimode-Glasfaser erfolgen.

  • • Backend-Netzwerke verwenden fast ausschließlich eine Leaf-Spine-Architektur, bei der Leaf-Switches (manchmal auch Rail-Switches genannt) eine GPU-Verbindung mit hoher Bandbreite und geringer Latenz innerhalb eines Clusters bereitstellen und Spine-Switches die Konnektivität zwischen mehreren Clustern bereitstellen. Switch-to-Switch-Verbindungen im Backend erfolgen heute hauptsächlich im 800-Gigabit-Bereich und erfordern 16-Faser-MPO-Anschlüsse (8 Glasfasern senden und 8 empfängt mit 100 Gb/s). Einige Hyperscaler und große Cloud-Service Provider / Dienstleister stellen bereits auf 1,6-Terabit-Switch-Verbindungen im Backend um, die zwei 16-Faser-MPO-Stecker verwenden.

GPUs in Backend-Netzwerken verbinden sich typischerweise mit Geschwindigkeiten von 400 Gig und erfordern 8-Faser-MPOs (4 Fasern senden und 4 empfängt mit 100 Gb/s), wobei einige GPU-Verbindungen auf 800 Gig umgestellt werden. Im Gegensatz zum Ethernet-dominierten Frontend-Netzwerk nutzen GPU-Verbindungen im Backend häufig das InfiniBand-Protokoll mit Remote Direct Memory Access (RDMA)-Technologie für reduzierte Latenz. RDMA over Converged Ethernet (RoCE) ist eine aufkommende Alternative, die das Beste aus beiden Protokollen kombiniert.

Um die Latenz weiter zu minimieren, werden GPUs häufig direkt mit ihrem Leaf-Switch verbunden, wodurch die Verwendung strukturierter Verkabelung (Interconnects und Cross-Connects) zur Verwaltung der Geräteverbindungen entfällt. Diese Direktverbindungen verwenden vorkonfektionierte MPO-Glasfaserbaugruppen oder direkt angeschlossene Twinax- oder optische Baugruppen. Ein einzelner KI-Cluster kann Hunderte von GPUs enthalten, die bis zu 10 mal mehr Strom verbrauchen als CPUs. Dies führt zu einer wesentlich höheren Wärmeentwicklung und erfordert von den Rechenzentren Investitionen in fortschrittlichere Kühltechnologien, beispielsweise Flüssigkeitskühlung für diese Clusterumgebungen.

Diagramm der Frontend- und Backend-Netzwerke im Rechenzentrum.
Rechenintensives KI-Training findet in geschlossenen, dedizierten Backend-Netzwerken statt, während Frontend-Netzwerke KI-Systeme mit der Außenwelt verbinden und in Verbindung mit Backend-Netzwerken Datenübertragung, Speicher / Speicherung / Archivierung / Lagerung und Benutzerinteraktionen verwalten.

Herausforderungen beim Testen der KI-Infrastruktur in Rechenzentren

Die Verbindung von Hunderten von GPUs mit Geschwindigkeiten von 400 Gig oder höher in Backend-KI-Clustern führt zu extrem hohen Glasfaserdichten in Rechenzentren, was beim Testen und bei der Fehlerbehebung einige einzigartige Herausforderungen mit sich bringt.

  1. Die Überprüfung der Glasfaserendflächen auf Verunreinigungen ist entscheidend, um Signalverluste und Reflexionen zu vermeiden, die die Leistung beeinträchtigen. Die Überprüfung von Anschlüssen in Umgebungen mit extrem hoher Dichte kann jedoch schwierig sein. Die Fluke Networks FI-3000 FiberInspector™ Ultra Kamera bietet eine Lösung mit PortBright™-Beleuchtung für Sichtbarkeit in dichten Umgebungen sowie Autofokus/Autozentrierung für eine sofortige Live-Ansicht der Glasfaserendflächen, einschließlich einfachem Zoom zur Inspektion einzelner Glasfaserendflächen oder eines gesamten MPO-Arrays. Die FI-3000 FiberInspector Ultra-Kamera wird standardmäßig mit Spitzen zur Inspektion von 12- und 24-Faser-UPC/APC-MPO-Endflächen geliefert, mit optionalen Spitzen für MMC und schlüssellosen MPO-APC-Spitzen für 12 zu 32 Fasern.

    Wenn sich bei der Inspektion herausstellt, dass MPO- oder MMC-Schnittstellen / Oberflächen gereinigt werden müssen, bietet Fluke Networks Quick Clean™-Reiniger an, mit denen sich Verunreinigungen effektiv von den Endflächen der MPO/MTP- und MMC-Schottverbinder sowie von verschiedenen Duplex-Steckverbindern entfernen lassen.

Bilder der Fluke Networks FI-3000 FiberInspector Ultra-Kamera und der Quick Clean MPO- und MMC-Reiniger.

Die Fluke Networks FI-3000 FiberInspector™ Ultra-Kamera und die Quick Clean™ MPO/MTP- und MMC-Reiniger eignen sich ideal zum Prüfen und Reinigen von Glasfaser-Endflächen in Rechenzentrumsumgebungen mit hoher Dichte wie KI-Clustern.

  1. Die Prüfung der Einfügungsdämpfung für Hochgeschwindigkeits-400-Gigabit-Ethernet- oder InfiniBand-Glasfaserverbindungen in Backend-Netzwerken sollte mit einem Tester mit integriertem MPO-Anschluss erfolgen, beispielsweise mit dem Fluke Networks MultiFiber™ Pro MPO-Tester, der alle Glasfasern gleichzeitig scannen und die Dämpfungsergebnisse für die gesamte Verbindung anzeigen kann. Der MultiFiber Pro-Tester prüft MPO-Verbindungen auch auf korrekte Polarität. Dies ist wichtig, um sicherzustellen, dass jede Sendefaser mit ihrer Empfangsfaser übereinstimmt. Zum Testen von 16-Faser-MPOs, die in 800-Gig-Links verwendet werden, ist derzeit ein Y-Breakout-Kabel erforderlich (16-Faser-MPO-Anschluss an zwei 8-Faser-MTP/MPOs). Jeder 8-Faser-Abschnitt wird getestet und die Ergebnisse werden kombiniert, um den Gesamtverbindungsverlust zu bestimmen.
  1. Glasfasersteckverbinder mit sehr kleinem Formfaktor (VSFF) – wie MDC- und SN-MT-Duplex-Steckverbinder und MMC-Array-Steckverbinder, die eine um ein Vielfaches höhere Dichte als herkömmliche Steckverbinder bieten – werden in KI-Clustern mit hoher Dichte immer häufiger eingesetzt. Fluke Networks bietet jetzt eine von der Sparte empfohlene 1-Jumper-Referenz für MDC-Steckverbinder an und wird ähnliche Methoden für andere VSFF-Steckverbindertypen entwickeln, wenn diese eine größere Verbreitung finden. Bis dahin können Tests mit einer 3-Jumper-Referenzmethode durchgeführt werden. Das Fluke Technical Assistance Center (TAC) kann Ihnen beim Testen neuer VSFF-Steckverbinder behilflich sein.

Bild des FiberLert™ Live Fiber Detector von Fluke Networks bei der Überprüfung eines Transceivers.

Der Fluke Networks FiberLert™ Live Fiber Detector erkennt aktive Glasfasersignale an QSFP-Transceiver-Anschlüsse.

  1. Die Fehlersuche bei QSFP-Transceivern ist häufig erforderlich, wenn in einem KI-Netzwerk ein Problem auftritt. Sie können den FiberLert™ Live-Glasfaserdetektor von Fluke Networks in einem Multimode- oder Singlemode-Transceiver-Port verwenden, um die Glasfaseraktivität und -konnektivität schnell und sicher zu bestätigen. Aufgrund seiner geringen Größe passt es problemlos in zugängliche Switch-Anschlüsse mit hoher Dichte. Wenn Sie eine ausführlichere Fehlersuche benötigen, kann das OptiFiber™ Pro OTDR von Fluke Networks Signalverluste und Reflexionen bestimmter Ereignisse (Anschlüsse, Unterbrechungen, Biegungen usw.) genau lokalisieren und messen.

Die Integration von KI in Rechenzentren wird die Entwicklung der Netzwerkverkabelungsarchitekturen weiterhin deutlich vorantreiben und die daraus resultierende höhere Dichte wird die Betreiber von Rechenzentren vor anhaltende Herausforderungen stellen. Da die Branche die Grenzen der KI-Fähigkeiten immer weiter ausdehnt, werden robuste und effiziente Test- und Fehlerbehebungslösungen von entscheidender Bedeutung sein, um die Zuverlässigkeit und Leistung dieser 400-Gig+-Netzwerke sicherzustellen.