Sztuczna inteligencjaPółprzewodniki i chipy

GPT-5.5 od OpenAI – nowa era autonomicznych agentów pracy

Czy to jeszcze chatbot, czy już system operacyjny do pracy?

OpenAI wypuścił GPT-5.5 i jednocześnie przestawił zwrotnicę: Codex z narzędzia do kodu zmienia się w bazę „superapki” do realnej pracy na komputerze. Na papierze – świetne wyniki i lepsza ekonomia tokenów. W praktyce – rosnąca autonomia, błyskawiczne wdrożenie w NVIDII i… chwilowa pauza na API z powodów bezpieczeństwa.

Ta aktualizacja jest ważna, bo wyznacza nowy wektor w wojnie o produktywność: mniej czatu, więcej roboty wykonanej przez agentów. Firmy nie kupują już „inteligencji ogólnej”, tylko konkret: czy model kliknie przez formularze, zbuduje arkusz, odpali testy i wróci rano z wynikiem. A do tego potrzebne są trzy rzeczy naraz: autonomia, kontrola i sensowny koszt za token. OpenAI twierdzi, że z GPT-5.5 i nowym Codexem łączy te trzy kropki. [1]

Futurystyczna scena z autonomicznymi agentami w pracy w ciemnym otoczeniu.
Grafika koncepcyjna (AI)

Mocniejsza „głowa”, dłuższy oddech, tańszy token

OpenAI reklamuje GPT-5.5 jako „nową klasę inteligencji do prawdziwej pracy”. Model liczy 284 mld parametrów. W niezależnych i społecznościowych ewaluacjach wypada solidnie w długich, wieloetapowych zadaniach i używaniu komputera: m.in. 82,7% na Terminal-Bench 2.0, 84,4% na BrowseComp, 78,7% OSWorld-Verified; na SWE-Bench Pro – 58,6%. Sygnał dnia? Nie tyle „rekordy wszędzie”, co lepsza gospodarka tokenami i stabilniejsza, dłuższa egzekucja. API ma okno kontekstu 1 mln tokenów, a ceny (raportowane) startują od 5/30 USD za 1 mln tokenów input/output dla 5.5 i 30/180 USD dla Pro – przy czym firma podkreśla niższe zużycie tokenów na zadanie niż w 5.4. Sam model był współprojektowany pod NVIDIĘ GB200/300 i – jak twierdzi firma – pomagał udoskonalać własny stos inference. Pojawia się także na GPQA. [7]

Futurystyczne biuro z autonomicznymi agentami w stylu 2.5D na ciemnym tle.
Grafika koncepcyjna (AI)

Dostęp? GPT-5.5 trafił od razu do ChatGPT dla planów Plus/Pro/Business/Enterprise, a mocniejszy 5.5 Pro – do Pro/Business/Enterprise. API jest opóźnione „na dodatkowe zabezpieczenia” i to nie jest detal: deweloperzy czują brak, a koszty 5.5 i 5.5 Pro będą wyraźnie wyższe niż 5.4, co może wydłużyć żywot starszych modeli w projektach wrażliwych na budżet. [8]

Codex wyrasta na superapkę

Równoległa aktualizacja Codexa jest tu cichym bohaterem. To już nie tylko „asystent do kodu”, ale agent pracy na komputerze: potrafi sterować przeglądarką, klikać przez web-flow, korzystać z Arkuszy/Prezentacji, czytać PDF-y, przechwytywać zrzuty ekranu, dyktować systemowo i – co kluczowe – iterować aż do domknięcia zadania. W tle złożono niegdysiejszy projekt Prism i dołożono tryb auto-review: drugiego „strażnika” ograniczającego liczbę ludzkich zgód podczas długich przebiegów. Wrażenia wczesnych użytkowników? „Mniej prowadzenia za rękę”, „po prostu łapie o co chodzi” – choć bywa też bardziej eksploracyjny i wymaga ostrzejszych instrukcji.

To element większego planu. OpenAI mówi wprost o budowie „superapki”: jednej platformy sklejającej ChatGPT, Codexa i przeglądarkę/agenta komputerowego. Szwajcarski scyzoryk do pracy cyfrowej zamiast kolejnej karty czatu. [7]

NVIDIA jako poligon: skala, koszt i bezpieczeństwo

Najbardziej namacalny dowód, że to działa, przyszedł z NVIDII. Ponad 10 tys. pracowników w wielu działach korzysta z Codexa napędzanego GPT-5.5; chwilę później Jensen Huang ogłosił rollout dla całej firmy. Serwowanie na klastrach GB200 NVL72 ma dawać nawet 35x niższy koszt na milion tokenów i 50x większy throughput tokenów na megawat niż poprzednie generacje, co wreszcie robi z inference na „frontierach” opcję ekonomiczną w skali enterprise. Efekty? Dni debugowania skracają się do godzin, eksperymenty tygodniowe – do nocy; zespoły dowożą funkcje end-to-end z promptów naturalnym językiem, z mniejszą liczbą pustych przebiegów.

Co ważne, wdrożenie nie jest „dzikie”. Każdy agent dostaje własną zdalną maszynę w chmurze (SSH), pełen audyt, politykę zero retencji danych i dostęp do systemów produkcyjnych tylko do odczytu przez CLI i firmowe „Skills”. W skrócie: maksymalne moce w piaskownicy, a interfejs dla ludzi pozostaje znajomy. Huang w wewnętrznym mailu ujął to bez ogródek: „Przeskoczmy do prędkości światła. Witajcie w erze AI.”

Benchmarki kontra rzeczywistość

Na papierze GPT-5.5 wygrywa lub remisuje w wielu głośnych testach i – co istotniejsze – przesuwa frontier koszt/wydajność. W starciu prestiżowym z Claude Opus 4.7 bywa jednak remisowo: GPT-5.5 prowadzi na wielu benchmarkach, ale w „zaawansowanym, agentycznym kodowaniu” część testerów wciąż wskazuje przewagę Anthropica. Na arenach opartych na ocenach użytkowników układ sił wciąż się tasuje. [8]

Rzeczywistość bywa też uparta. Simon Willison, mając wczesny dostęp, ominął brak API półoficjalnym „obejściem” w Codexie i zauważył, że domyślny output w jego teście SVG wypadał gorzej niż w 5.4 – dopiero podbicie „wysiłku rozumowania” (xhigh) dało lepszy wynik, ale kosztem czterech minut czekania i potężnego zużycia tokenów. Morał? Jakość jest, ale nie za darmo – czasem trzeba dopłacić myśleniem.

Bezpieczeństwo i… rosnąca autonomia

Opóźnienie API OpenAI tłumaczy dodatkowymi wymaganiami bezpieczeństwa – i trudno się dziwić. Rynek jest rozgrzany po zapowiedziach Anthropic wokół Mythos i dyskusjach o tym, komu i jak udostępniać modele zdolne do realnych akcji w systemach. Firma równolegle dokłada „workspaces agents”, filtry PII i testuje 5.5 z partnerami w środowiskach korporacyjnych. Pierwsi testerzy mówią o silnych wynikach w zadaniach bezpieczeństwa „z życia”, co tylko podnosi poprzeczkę dla governance’u.

Dwie prędkości Codexa: Spark i maraton

Jeszcze jedna rzecz, która może umknąć w szumie: OpenAI testuje lżejszy tryb GPT-5.3-Codex-Spark, odpalany na chipach Cerebrasa (WSE-3) pod skrajnie niską latencję. To pierwszy krok do Codexa działającego w dwóch komplementarnych trybach: „real-time” do szybkiej współpracy i „long-running” do głębszego rozumowania i wielogodzinnych przebiegów. Brzmi jak techniczne rusztowanie pod superapkę, w której to AI wybiera, czy akurat sprintuje, czy biegnie maraton.

Konkurencja nie śpi

Tydzień po Claude Opus 4.7, GPT-5.5 odpowiada i wyraźnie pcha agentów z kategorii „sprytny asystent” w stronę „zrobi to za ciebie i rozliczy żmudne rzeczy w tle”. Różnice będą się ścierać nie w slajdach, tylko w codziennym użyciu: ile kliknięć oszczędza Codex, jak często trzeba go korygować, ile naprawdę kosztuje „xhigh” rozumowanie na długim zadaniu i czy polityki bezpieczeństwa nadążą za autonomią.

Na koniec

OpenAI nie dorzucił dziś tylko cyferki po przecinku. Pcha ChatGPT i Codexa w jedną, bardziej agentową całość. Jeśli ta „superapka” rzeczywiście stanie się scyzorykiem do pracy, kolejne pytanie brzmi już mniej technologicznie, a bardziej organizacyjnie: czy wasze procesy są gotowe, by agent nie tylko podpowiadał, ale faktycznie klikał, łączył i domykał robotę? Bo wygląda na to, że on już puka do SSH.

Źródła

🧠 Czy ten artykuł dał Ci nową perspektywę?
Jedno kliknięcie. Zero kont. PressMind uczy się razem z Tobą.
Ładowanie oceny…
PressMind Labs - Ślad badawczy

To nie jest ozdobnik. To ślad po procesie: ile informacji było szumem, ile stało się wiedzą i jak wyglądał research, zanim powstał ten tekst.

9 źródeł użytych w tekście
9 niezależnych domen
0 s czas researchu
Wysoki sygnał jakości
Skan tematu
0 z 0 materiałów
Zachowano: 0 (0%) | Odrzucono: 0 (0%)
Źródła (finalne)
9 źródeł z 9 domen
Start: 9 | Finalnie: 9
Czas researchu
0 s
Różnorodność domen: 9 Źródła użyte: 9 Kontekst: pominięty

1. Zbieranie sygnałów (discovery)

Temat
GPT-5.5 od OpenAI - nowa era autonomicznych agentów pracy
Znaleziono materiałów
0
Wybrane do analizy
0
Odrzucone
0
Klastry (wątki)
0

2. Selekcja i filtrowanie

Odrzucono semantycznie (embedding)
0

3. Wyszukiwanie i wzbogacanie

Zapytania wyszukiwawcze
0
Unikalne wyniki
0
Kandydaci
0
Dodane z wyszukiwania (cache+live)
0
Przeskanowano URL-i (research)
9

4. Finalny kontekst

Źródła użyte w tekście
9
Źródła (domeny)
9
Wikipedia - kontekst
nie
Expansion - kontekst
nie
Wyłuskane liczby
0
Ten proces pokazuje, jak z dziesiątek sygnałów wyłania się kilka sprawdzonych źródeł, na których oparto finalny tekst.

Dodaj komentarz