Czy Microsoft właśnie znalazł sposób, by płacić mniej za każdy wypluty przez AI token – i przy okazji wbić szpilkę Nvidii? Nowy układ Maia 200 ma nie tylko dźwignąć inferencję szybciej, ale też taniej, a Redmond mówi wprost: trzy razy szybciej niż AWS Trainium 3 w FP4 i lepiej niż TPU v7 od Google w FP8.
Maia 200 to drugi autorski akcelerator AI Microsoftu, zaprojektowany pod inferencję, zbudowany w TSMC w 3 nm i już pracujący w regionie US Central. Chip chwali się ponad 10 PFLOPS w FP4, ponad 5 PFLOPS w FP8, 216 GB HBM3e (7 TB/s) i 272 MB pamięci na matrycy – i ma dawać 30% lepszy „performance per dollar” niż Maia 100. To nie jest jeszcze wyjście z cienia Nvidii, ale to już realna alternatywa dla dużych wdrożeń w Azure.
Co to jest Maia 200 w praktyce
Maia 200 to układ z ponad 140 mld tranzystorów, w 750-watowej obudowie, strojony pod FP4/FP8. Microsoft mówi o „najbardziej efektywnym systemie do inferencji”, jaki kiedykolwiek wdrożył. Liczby są agresywne: >10 PFLOPS (FP4), >5 PFLOPS (FP8), 216 GB HBM3e przy 7 TB/s i dodatkowe 272 MB SRAM z podsystemem do sprytnego rozdzielania danych. Innymi słowy: nie tylko flopsy, ale i karmienie modelu danymi bez wąskich gardeł. I to jest sedno: FLOPS są seksowne w slajdach, ale to pamięć i sieć decydują, czy model idzie sprintem, czy truchtem. [3]
Szerszy kontekst: chipy jako strategia, nie gadżet
Amazon ma Trainium, Google ma TPU, Nvidia ma wszystko inne. Microsoft dołącza tam, gdzie realnie leżą koszty: inferencja. Analitycy od dawna powtarzają, że to ona wsiąknie w każdą aplikację – a rynek inference może według prognoz urosnąć do setek miliardów dolarów. Własny akcelerator to niższy TCO, większa kontrola i mniejsze uzależnienie od cudzego ekosystemu. Tak, CUDA wciąż jest fosą Nvidii. Dlatego razem z hardware’em Microsoft wypuszcza SDK dla Maii i stawia m.in. na Tritona (z integracją PyTorcha i własnym kompilatorem), by portowanie modeli było mniej bolesne.
Fakty: porównania i realne wdrożenia
- Kontra hyperscalerzy: firma deklaruje ~3x wyższe FP4 od Trainium 3 i przewagę w FP8 nad TPU v7. Do tego więcej HBM (216 GB) i wyższa przepustowość pamięci niż u AWS. [4]
- Kontra Nvidia: porównania są nieczyste, bo topowe układy Nvidii celują w inne klasy mocy i mają gotowy, szeroki software stack. Energetycznie Maia 200 wypada lepiej (750 W) i ma 2,8 TB/s dwukierunkowego „scale-up” na akcelerator, co ma znaczenie przy zszywaniu wielu układów. [5]
- Skalowanie: akceleratory spinane w serwerach, standardowy Ethernet zamiast InfiniBand, własny transport i kolektywy aż do 6 144 akceleratorów. To ważny polityczny akcent: mniej zależności od sprzętowo-programowego ekosystemu Nvidii.
- Ekonomia: 30% lepszy performance-per-dollar niż Maia 100 – mimo wyższego TDP (750 W). Microsoft podkreśla też wyższą utylizację i krótszą drogę „od krzemu do produkcji”, z wdrożeniami przyspieszonymi o „połowę czasu” dzięki wcześniejszej walidacji sieci i chłodzenia.
- Gdzie to już działa: US Central (Iowa) dziś, US West 3 (Phoenix) w kolejce, kolejne regiony „wkrótce”. Na tym jadą usługi pokroju Copilota.
Software i lock-in, czyli gdzie naprawdę boli
CUDA to nie tylko biblioteka – to nawyk całej branży. Microsoft nie udaje, że jedną zapowiedzią to rozbroi. Zamiast tego dowozi SDK pod Maię: PyTorch, Triton, własne jądra i niski poziom dla tych, którzy lubią grzebać w bebechach. Celem jest, by ten sam model dało się puścić na różnych akceleratorach w Azure i nie tracić tygodni na portowanie. Trudna, ale niezbędna droga, jeśli Maia ma być czymś więcej niż wewnętrznym paliwem dla Copilota.
Łyżka dziegciu: czego nie wiemy (jeszcze)
Microsoft nie podał pełnych metryk „na rack” – ilu petaflopsów (i kilowatów) dostarcza szafa z Maią 200. AWS i Google chwalą się takimi danymi, więc brak tych liczb utrudnia porównania TCO na poziomie infrastruktury. A nawet najlepszy chip przegrywa z dojrzałym ekosystemem: dojrzałe sterowniki, narzędzia i know-how Nvidii wciąż dają przewagę w czasie-do-działania. Krótko mówiąc: hardware wygląda obiecująco, ale proof będzie w produkcyjnej zupie.
Interpretacja: właściwy zakład we właściwym momencie
Zamiast gonić Nvidię w wyścigu na rozgrzane do czerwoności układy treningowe, Microsoft przytomnie celuje w miejsce, gdzie za chwilę będą wszystkie pieniądze: masową inferencję. Do tego pamięć i sieć dostały tu tyle uwagi, co same rdzenie tensorowe. Jak to ktoś z Redmond ujął między wierszami: nie wystarczy szybciej liczyć – trzeba szybciej dowozić dane. W czasach, gdy opinia publiczna coraz częściej pyta o ślad energetyczny AI, 750-watowy akcelerator z sensowną przepustowością wygląda jak rozsądny kompromis.
Na koniec spokojnie: czy to przestawi rynek?
Jeśli budujesz produkty na Azure, poczujesz to wcześniej niż później: większy throughput, mniejszy koszt tokena, mniej czekania na zasoby. Jeśli jesteś wierny CUDA – Maia 200 nie przekona cię memem ani jednym slajdem, ale z czasem może przekonać cię rachunek. Bo o to w tej grze chodzi: żeby te same odpowiedzi modelu kosztowały mniej.
FAQ
Czy klienci Azure mogą już korzystać z Maia 200?
Tak, ale na razie ograniczenie jest duże: układy działają w produkcji dla usług Microsoftu, a „szersza dostępność dla klientów” ma pojawić się w przyszłości. Dziś można zgłosić się do preview SDK i czekać na rozszerzenie regionów.
Kiedy Maia 200 trafi do kolejnych regionów Azure?
Microsoft potwierdził US Central (Iowa) i następny US West 3 (Phoenix); kolejne regiony mają dołączyć później. Nie podano konkretnych dat poza ogólnym „wkrótce”.
Czy Maia 200 nadaje się do treningu modeli AI?
Nie, Maia 200 jest projektowany głównie pod inferencję (FP4/FP8) i optymalizację kosztu tokena. Trening gigantycznych modeli pozostaje domeną układów o innej charakterystyce mocy i ekosystemu.
Czy Maia 200 korzysta z InfiniBand jak układy Nvidii?
Nie, Microsoft postawił na standardowy Ethernet z własnym protokołem transportowym i do 2,8 TB/s skalowalnej przepustowości. To ma uprościć integrację i zmniejszyć zależność od stosu Nvidii.
Czy Maia 200 faktycznie obniży koszt inferencji?
Tak, według Microsoftu Maia 200 daje ok. 30% lepszy performance-per-dollar niż poprzednia generacja w jego flocie. Niezależne pomiary TCO nie są jednak publicznie dostępne.
Źródła
- [1] https://tomshardware.com/pc-components/cpus/microsoft-introduces-newest-in-house-ai-chip-maia-200-is-faster-than-other-bespoke-nvidia-competitors-built-on-tsmc-3nm-with-216gb-of-hbm3e
- [2] https://crn.com/news/ai/2026/microsoft-takes-on-aws-google-and-nvidia-with-maia-200-ai-chip-launch
- [3] https://techbuzz.ai/articles/microsoft-maia-200-crushes-aws-and-google-in-ai-chip-wars
- [4] https://datacenterknowledge.com/infrastructure/microsoft-unveils-maia-200-in-house-inference-chip
- [5] https://itbrief.asia/story/microsoft-unveils-maia-200-ai-chip-to-cut-token-costs
- [6] https://livescience.com/technology/artificial-intelligence/microsoft-says-its-newest-ai-chip-maia-200-is-3-times-more-powerful-than-googles-tpu-and-amazons-trainium-processor
- [7] https://ynetnews.com/tech-and-digital/article/sjenlgruwg
- [8] https://cm.asiae.co.kr/en/article/2026012710482220663
- [9] https://cnbc.com/2026/01/26/microsoft-reveals-maia-200-ai-chip-will-use-it-in-house.html
To nie jest ozdobnik. To ślad po procesie: ile informacji było szumem, ile stało się wiedzą i jak wyglądał research, zanim powstał ten tekst.
1. Zbieranie sygnałów (discovery)
- RSS - źródeł w configu
- 90
- RSS - stan źródeł
- 90 / 90 OK
- RSS - przepływ (od surowych do unikalnych)
- 3069 -> 2979 -> 449 -> 318
- RSS - usunięte duplikaty tytułów
- 2
- Pula tematów (z RSS)
- 318
- Wybrane do analizy
- 197
- Odrzucone
- 93
- Duplikaty (archiwum tematów)
- 2
- Klastry (wątki)
- 146
2. Selekcja i filtrowanie
- Odrzucono semantycznie (embedding)
- 3
3. Wyszukiwanie i wzbogacanie
- Zapytania wyszukiwawcze
- 17
- Unikalne wyniki
- 54
- Kandydaci
- 34
- Dodane z wyszukiwania (cache+live)
- 8
- Przeskanowano URL-i (research)
- 2
4. Finalny kontekst
- Źródła użyte w tekście
- 9
- Źródła (domeny)
- 9
- Wikipedia - kontekst
- nie
- Expansion - kontekst
- nie
- Wyłuskane liczby
- 3




