Sztuczna inteligencja & Półprzewodniki i chipy

Google i OpenAI w wyścigu AI – myślenie głębsze vs prędkość działania

Czy to już „myślenie” AI, czy po prostu nowy, bardzo kosztowny sposób na dłuższe mielenie odpowiedzi?

Google odpalił tryb Gemini 3 Deep Think – specjalny mechanizm do zadań, gdzie liczy się analiza i rygor, nie small talk. OpenAI w tym samym czasie pokazało GPT-5.3 Codex Spark: model do kodu, który jedzie ponad 1000 tokenów na sekundę. W tle: według branżowego newslettera Anthropic domyka rundę rzędu 30 mld dol. przy wycenie 380 mld dol., a chiński MiniMax chwali się topowym wynikiem w open-source’owych testach kodowania. Jeden tydzień, trzy wektory wyścigu: głębokie rozumowanie, brutalna prędkość i jeszcze więcej kapitału.

To ważne, bo kończy się epoka „jednego wielkiego modelu do wszystkiego”. Najlepsze zespoły rozdzielają kompetencje: osobno tryb „pomyśl dłużej” dla nauki i inżynierii, osobno „odpisz natychmiast” dla developerów. A inwestycje i infrastruktura (Cerebras, API, programy early access) mówią jasno, gdzie idzie ciężar innowacji – w test-time compute, specjalizację i realne workflowy.

Ilustracja przedstawiająca wyścig między dwiema abstrakcyjnymi reprezentacjami technologii AI.
Grafika koncepcyjna (AI)

Gemini 3 Deep Think: wolniej, ale mądrzej

Google nazywa Deep Think „wyspecjalizowanym trybem rozumowania” i nie bez powodu pcha go do rąk naukowców i inżynierów. Tryb trafia do subskrybentów płatnej wersji w aplikacji Gemini oraz do wybranych badaczy i firm przez API/Vertex AI w ramach wczesnego dostępu. Klucz jest prosty: model dostaje więcej czasu i narzędzi, by rozwinąć równoległe hipotezy i przejść wieloetapowe wnioskowanie, zamiast zgrywać błyskotliwego generalistę. [7]

Ilustracja przedstawiająca dwa systemy AI w futurystycznym laboratorium.
Grafika koncepcyjna (AI)

Na benchmarkach widać skok. Google podaje 84,6% na ARC-AGI-2 (zweryfikowane przez ARC Prize Foundation) i 48,4% na Humanity’s Last Exam bez narzędzi. W konkurencyjnym programowaniu – Elo 3455 na Codeforces (poziom ścisłej światowej czołówki), „złoto” zadań pisemnych z Olimpiad Fizycznej i Chemicznej 2025 oraz topowe wyniki z matematyki. Co ważne, w multimodalnym MMMU-Pro przewaga nad „zwykłym” Gemini 3 Pro Preview jest symboliczna (81,5% vs 81,0%), co sugeruje, że upgrade to precyzyjny doping rozumowania, nie uniwersalny turbo-boost wszystkiego.

Google pokazuje też praktyczne case’y: od znalezienia subtelnego błędu logicznego w recenzowanym artykule matematycznym, przez zaprojektowanie metody wzrostu kryształów półprzewodnikowych na potrzeby nowych materiałów, po generowanie plików do druku 3D ze szkicu – łącznie z modelowaniem geometrii i wygenerowaniem STL. Innymi słowy: od teorii do śrubki.

Ważny niuans: to ma być „productized, test-time compute heavy mode”, nie demo z labu. Jeff Dean podkreślał, że przy zachowaniu topowych wyników Deep Think potrafi być bardzo efektywny kosztowo – nawet o 82% taniej per „task”. Kontekst do liczb dorzuca ARC Prize: półprywatne cenniki ewaluacji mówią o ~13,62 dol. za zadanie ARC-AGI-2 i ~7,17 dol. za ARC-AGI-1. To wciąż nie są grosze, ale rachunek zaczyna mieć sens, gdy stawką jest odkrycie błędu w dowodzie albo szybszy prototyp działającej części.

OpenAI: prędkość jako funkcja

OpenAI z kolei zagrało w zupełnie inną nutę i pokazało GPT-5.3 Codex-Spark – „mniejszy” wariant skoncentrowany na ekstremalnej przepustowości. Dzięki głębokiej integracji z hardware’em Cerebrasa (WSE-3, czyli jeden wielki chip wielkości wafla krzemowego zamiast stada GPU gadających po kablach) Spark wyrzuca stabilnie ponad 1000 tokenów na sekundę, około 15 razy szybciej niż flagowy GPT-5.3 Codex. [3][2]

Sama krzemowa magia to nie wszystko: OpenAI przebudowało ścieżkę komunikacji i wprowadziło stałe połączenia WebSocket, co technicznie tnie narzut RTT o 80%, skraca czas do pierwszego tokena o 50% i zmniejsza per-token overhead o 30%. Efekt uboczny? „Real-time steering” – możesz przerwać generację i przestawić logikę w locie, zamiast czekać na cały blok. Trade-off jest uczciwie opisany: Spark gorzej radzi sobie w złożonym, wieloplikowym refaktorze, ma płytsze rozumowanie i nie spełnia wysokiego progu cyberbezpieczeństwa przypisanego flagowemu Codexowi. Za to dla deva na iteracjach minuta-po-minucie brzmi to jak dar z nieba. Spark jest dostępny dla użytkowników ChatGPT Pro i developerów (apka Codex, wtyczka VS Code, CLI). [3]

Pieniądze i agentowość: Anthropic i MiniMax

Jeśli wierzyć podsumowaniom branżowego newslettera, Anthropic domknął rundę wartą 30 mld dol. przy wycenie 380 mld dol., z imponującym skokiem przychodów do 14 mld dol. (Claude Code ma mieć 2,5 mld ARR YTD). To kosmiczne liczby i – dopóki firmy nie pokażą sprawozdań – warto je traktować jako sygnał trendu: kapitał płynie w „agentic AI” i modele, które nie tylko odpowiadają, ale działają w imieniu użytkownika.

Z drugiej strony sceny mamy MiniMax M2.5 z Chin, który w „open agentic coder” bije się z GLM-5 Zhipu i chwali 80,2% na SWE-Bench Verified – poziom mający równać do Clauda Opusa w tych metrykach. Co ciekawsze, model natychmiast trafił do ekosystemu: OpenRouter, Arena, IDE/agenci (Cline), a nawet integracje w stylu Ollama Cloud. W praktyce: coraz lepszy „agent-koder” jest w zasięgu jednego przełącznika w narzędziach, których programiści już używają.

Dlaczego to ma znaczenie

François Chollet (twórca ARC) przypomina, że wysokie wyniki na ARC-AGI-2 nie „dowodzą AGI”. Benchmark ma pchać badania w kierunku adaptacji w czasie testu i płynnej inteligencji, a nie być ostateczną pieczęcią. I to widać: Google dowozi tryb, który naprawdę pomaga w nauce i inżynierii – nawet jeśli multimodalnie nie odjeżdża daleko – a OpenAI dostarcza narzędzie, które zmienia rytm pracy programisty z „zadaj-zaczekaj” na „gadaj-steruj-w locie”. A inwestorzy? Stawiają na to, że kolejne piętro wzrostu przyjdzie z agentów robiących realną robotę, nie tylko wypisujących ładne zdania.

Można powiedzieć, że wyścig zbrojeń w AI zamienił się w triathlon: rozumowanie, prędkość i koszt. Nie wygra ten, kto ma najładniejszy slajd, tylko ten, kto dowiezie przewidywalny efekt w danym workflow – od dowodu w topologii, przez przepis na kryształ, po hotfix w mikroserwisie o 16:57.

Na koniec pytanie do was: w waszych zespołach dziś większą wartość ma „myślenie głębiej” czy „odpisywanie szybciej”? I czy jeśli model złapie wasz błąd w wyprowadzeniu albo zwróci poprawny STL za pierwszym razem, to nadal będziecie liczyć tokeny – czy już tylko czas?

FAQ

Czy Gemini 3 Deep Think jest dostępny dla wszystkich użytkowników?

Nie, na razie tylko dla subskrybentów płatnej wersji w aplikacji Gemini oraz wczesnego dostępu przez Gemini API/Vertex AI dla wybranych badaczy i firm. Google zapowiada rozszerzanie dostępu etapami.

Czy Gemini 3 Deep Think to osobny model, czy tryb w Gemini?

To tryb rozumowania w rodzinie Gemini 3, który uruchamia bardziej deliberatywne, równoległe wnioskowanie. Użytkownik wybiera „Deep Think” w pasku promptu przy Gemini 3 Pro.

Jak szybko działa GPT-5.3 Codex-Spark i gdzie mogę go użyć?

Model osiąga ponad 1000 tokenów/s dzięki integracji z Cerebras WSE-3. Jest dostępny dla użytkowników ChatGPT Pro i developerów w aplikacji Codex, rozszerzeniu VS Code i przez CLI.

Czy GPT-5.3 Codex-Spark nadaje się do zadań bezpieczeństwa?

Nie, Spark nie spełnia wysokiego progu bezpieczeństwa przypisanego flagowemu Codexowi. Nie używaj go do wrażliwej logiki czy autonomicznego uwierzytelniania.

Jak wypada MiniMax M2.5 w kodowaniu w porównaniu z topowymi modelami?

Według dostępnych danych MiniMax M2.5 osiąga 80,2% na SWE-Bench Verified, poziom porównywalny z Claudem Opusem w tej metryce. Model jest szeroko dostępny przez popularne integracje.

Źródła

🧠 Czy ten artykuł dał Ci nową perspektywę?
Jedno kliknięcie. Zero kont. PressMind uczy się razem z Tobą.
Ładowanie oceny…

PressMind Labs - Ślad badawczy

To nie jest ozdobnik. To ślad po procesie: ile informacji było szumem, ile stało się wiedzą i jak wyglądał research, zanim powstał ten tekst.

9 źródeł użytych w tekście
8 niezależnych domen
1 min 52 s czas researchu
Wysoki sygnał jakości
Skan tematu
194 z 319 sygnałów (RSS: 3037)
Zachowano: 194 (61%) | Odrzucono: 94 (29%)
Źródła (finalne)
9 źródeł z 8 domen
Start: 4 | Finalnie: 9
Czas researchu
1 min 52 s
Różnorodność domen: 8 Źródła użyte: 9 Kontekst: dodany (Wiki) Liczby w tekście: 2

1. Zbieranie sygnałów (discovery)

Temat
[AINews] new Gemini 3 Deep Think, Anthropic $30B @ $380B, GPT-5.3-Codex Spark, MiniMax M2.5
RSS - źródeł w configu
89
RSS - stan źródeł
88 / 89 OK (fail: 1)
RSS - przepływ (od surowych do unikalnych)
3037 -> 2953 -> 438 -> 319
RSS - usunięte duplikaty tytułów
1
Pula tematów (z RSS)
319
Wybrane do analizy
194
Odrzucone
94
Klastry (wątki)
155

2. Selekcja i filtrowanie

Odrzucono semantycznie (embedding)
13

3. Wyszukiwanie i wzbogacanie

Zapytania wyszukiwawcze
21
Unikalne wyniki
44
Kandydaci
31
Dodane z wyszukiwania (cache+live)
6
Przeskanowano URL-i (research)
4

4. Finalny kontekst

Źródła użyte w tekście
9
Źródła (domeny)
8
Wikipedia - kontekst
tak
Expansion - kontekst
nie
Wyłuskane liczby
2
Ten proces pokazuje, jak z dziesiątek sygnałów wyłania się kilka sprawdzonych źródeł, na których oparto finalny tekst.

Dodaj komentarz