NVIDIA wprowadza ComputeDomains do Kubernetes - rewolucja w AI i GPU

Czy naprawdę musimy udawać, że serwery z GPU to odrębne wyspy, skoro łączy je bardzo szybka magistrala NVLink? Kubernetes długo tak właśnie robił. NVIDIA postanowiła to zmienić – i robi to w sposób, który ma szansę odblokować wielkie modele i nowoczesne inference.

NVIDIA dorzuca do Kubernetes brakujący klocek układanki: ComputeDomains w ramach sterownika DRA dla GPU. To nowe pojęcie w świecie K8s ukrywa całą złożoność multi-node NVLink i sprawia, że procesy na różnych serwerach mogą wykonywać bezpieczne operacje pamięci GPU-do-GPU tak, jakby siedziały obok siebie. Startuje to z GB200 NVL72 i celuje dalej – w rozproszone obciążenia, które potrzebują niższych opóźnień i lepszej przepustowości niż daje standardowe "sieciowe P2P".

W szerszym planie to ważne, bo Kubernetes stał się domyślną platformą dla AI – od on-prem po chmurę – ale nie był stworzony do zarządzania sprzętowymi tkaninami akceleratorów przebiegającymi przez granice węzłów. Multi-node NVLink zmienia zasady gry, a ComputeDomains tłumaczy je na język K8s: dynamicznej, bezpiecznej alokacji zasobów i świadomego topologii schedulingu. [1]

Ilustracja przedstawiająca futurystyczne środowisko Kubernetes z akceleratorami GPU. — Grafika koncepcyjna (AI)

O co tu chodzi

GB200 NVL72 pcha infrastrukturę AI na nowe obroty: to platforma zaprojektowana do trenowania ogromnych LLM-ów i uruchamiania bardzo skalowalnych, niskolatencyjnych usług inferencyjnych. Jej sekretem nie są tylko same GPU, ale NVLink rozciągnięty na wiele węzłów – tkanina pamięci, która pozwala akceleratorom komunikować się bez narzutu sieci TCP. Problem? Kubernetes nie miał pojęcia, że takie relacje istnieją, ani jak je wykorzystać w sposób powtarzalny i bezpieczny. [1]

Futurystyczna scena centrum danych z serwerami GPU w neonowych kolorach. — Grafika koncepcyjna (AI)

NVIDIA proponuje więc ComputeDomains – nowy abstrakt, który łączy niskopoziomowe konstrukty sprzętowe NVLink z natywnymi mechanizmami schedulingu w Kubernetes (Dynamic Resource Allocation, czyli DRA). Efekt: wielowęzłowe joby dostają przestrzeń wykonawczą, w której GPU mogą wykonywać cross-node operacje pamięci bez ręcznej inżynierki i bez ryzyka, że wylądują w złej topologii. [1]

Dlaczego Kubernetes tego nie umiał

K8s świetnie radzi sobie z CPU, RAM-em i ogólnym pojęciem "węzła". Ale NVLink to zupełnie inny rodzaj zasobu: wymaga, by scheduler rozumiał fizyczną topologię GPU, domeny łączności, a także polityki bezpieczeństwa dla udostępniania pamięci między urządzeniami na różnych serwerach. Do niedawna multi-node NVLink trzeba było definiować ręcznie: stałe mapowania, pary węzłów, statyczne konfiguracje. Działało – do pierwszej zmiany obciążenia lub awarii, po której żonglowanie podami kończyło się utratą właściwych ścieżek NVLink. [1]

ComputeDomains w praktyce

ComputeDomain to logiczna domena obliczeniowa, w której zestaw GPU – nawet jeśli rozsiany po kilku maszynach – ma gwarantowaną, bezpośrednią łączność NVLink oraz skonfigurowane, bezpieczne operacje pamięci GPU-do-GPU. NVIDIA implementuje to w swoim sterowniku DRA dla GPU: kiedy składasz wniosek o zasoby dla rozproszonego zadania, driver rozpoznaje topologię NVLink, negocjuje alokację i upewnia się, że każdy worker dostaje GPU należące do tej samej ComputeDomain. Przykład: w Jobie z wieloma workerami każda replika zgłasza przez DRA żądanie GPU z tej samej ComputeDomain, a scheduler umieszcza pody na węzłach połączonych NVLink. [1]

Kluczowa jest automatyzacja i bezpieczeństwo. Zamiast twardo przypisanych, kruchych "mostków" między węzłami, ComputeDomains dynamicznie spina tkaninę NVLink zgodnie z polityką i aktualnym stanem klastra. Kubernetes wreszcie wie, które GPU mogą rozmawiać pamięcią bez pośrednictwa sieci, i potrafi tę wiedzę wykorzystać przy planowaniu podów. Dla użytkownika oznacza to mniej skomplikowanych manifestów, dla operatora – mniej delikatnych, ręcznych konfiguracji, które psują się w najmniej odpowiednim momencie. [1]

Co to daje w codziennej pracy

Trening wielkich LLM-ów i systemów typu Mixture-of-Experts potrzebuje przepustowości i niskiej latencji. Multi-node NVLink, sensownie obsługiwany przez K8s, pozwala układać joby tak, by komunikacja między GPU nie była wąskim gardłem. To samo dotyczy inferencji na żywo, gdzie model rozlany na wiele akceleratorów musi szybko wymieniać wektory i stany – ComputeDomains pomagają utrzymać opóźnienia w ryzach. [1]

Są też przyziemne korzyści operacyjne: lepsze wykorzystanie klastrów (bo scheduler widzi realną topologię, a nie tylko liczbę GPU), łatwiejsze skalowanie w górę i w dół bez ryzyka wyjścia poza domenę NVLink, a także już na starcie wsparcie dla "GB200 i dalej". Innymi słowy, nie jest to hack pod jeden konkretny stos, tylko fundament pod nową generację sprzętu z NVLink w wersji rozproszonej.

Szerszy trend: orkiestracja uczy się sprzętu

ComputeDomains to kolejny dowód, że granica między software’em a hardware’em przesuwa się w stronę orkiestratorów. W świecie, gdzie akceleratory są spajane tkaninami pamięci i przełącznikami NVLink, proste "daj mi 8 GPU" przestaje wystarczać. Kubernetes musi rozumieć, które 8 GPU to te właściwe, jak je bezpiecznie połączyć i co zrobić, gdy jeden z węzłów zniknie. DRA otwiera drogę do takich rozszerzeń, a vendorzy – tu NVIDIA – dostarczają inteligencję po stronie sterowników. [1]

To nie jest tylko usprawnienie. To przejście z epoki "serwer jako granica" do epoki "domena obliczeniowa jako granica". Brzmi abstrakcyjnie, ale realnie przekłada się na stabilniejsze joby, prostsze operacje i mniejsze rachunki za czas stracony na walkę z topologią.

Pytania, które jeszcze wrócą

Nie wszystkie klastry i nie wszystkie workloady potrzebują multi-node NVLink. Trzeba też pamiętać, że cudów nie ma: ComputeDomain nie sprawi, że brakująca tkanina cudownie się pojawi. To warstwa, która mądrze wykorzystuje istniejącą infrastrukturę i robi to bezpiecznie. Warto będzie obserwować, jak to gra w klastrach wielotenantowych, jak wyglądać będą polityki izolacji i jak operatorzy dostaną wgląd w to, gdzie faktycznie lądują ich joby – bo dobra obserwowalność to druga połowa sukcesu. [1]

Podsumowanie

Multi-node NVLink to potężne narzędzie, ale dopiero z sensowną integracją z Kubernetes staje się użyteczne na co dzień. ComputeDomains zamieniają delikatną, ręczną układankę NVLink w zasób pierwszej klasy: planowalny, bezpieczny, automatyzowalny. GB200 NVL72 to naturalny punkt startu, ale prawdziwa stawka jest większa: orkiestracja, która rozumie sprzęt na poziomie tkaniny, a nie tylko gniazd CPU. I to może być moment, w którym klastry GPU przestają być zbiorem wysp – i wreszcie stają się spójną całością połączoną łączami NVLink.