Czy to już „myślenie” AI, czy po prostu nowy, bardzo kosztowny sposób na dłuższe mielenie odpowiedzi?
Google odpalił tryb Gemini 3 Deep Think – specjalny mechanizm do zadań, gdzie liczy się analiza i rygor, nie small talk. OpenAI w tym samym czasie pokazało GPT-5.3 Codex Spark: model do kodu, który jedzie ponad 1000 tokenów na sekundę. W tle: według branżowego newslettera Anthropic domyka rundę rzędu 30 mld dol. przy wycenie 380 mld dol., a chiński MiniMax chwali się topowym wynikiem w open-source’owych testach kodowania. Jeden tydzień, trzy wektory wyścigu: głębokie rozumowanie, brutalna prędkość i jeszcze więcej kapitału.
To ważne, bo kończy się epoka „jednego wielkiego modelu do wszystkiego”. Najlepsze zespoły rozdzielają kompetencje: osobno tryb „pomyśl dłużej” dla nauki i inżynierii, osobno „odpisz natychmiast” dla developerów. A inwestycje i infrastruktura (Cerebras, API, programy early access) mówią jasno, gdzie idzie ciężar innowacji – w test-time compute, specjalizację i realne workflowy.
Gemini 3 Deep Think: wolniej, ale mądrzej
Google nazywa Deep Think „wyspecjalizowanym trybem rozumowania” i nie bez powodu pcha go do rąk naukowców i inżynierów. Tryb trafia do subskrybentów płatnej wersji w aplikacji Gemini oraz do wybranych badaczy i firm przez API/Vertex AI w ramach wczesnego dostępu. Klucz jest prosty: model dostaje więcej czasu i narzędzi, by rozwinąć równoległe hipotezy i przejść wieloetapowe wnioskowanie, zamiast zgrywać błyskotliwego generalistę. [7]
Na benchmarkach widać skok. Google podaje 84,6% na ARC-AGI-2 (zweryfikowane przez ARC Prize Foundation) i 48,4% na Humanity’s Last Exam bez narzędzi. W konkurencyjnym programowaniu – Elo 3455 na Codeforces (poziom ścisłej światowej czołówki), „złoto” zadań pisemnych z Olimpiad Fizycznej i Chemicznej 2025 oraz topowe wyniki z matematyki. Co ważne, w multimodalnym MMMU-Pro przewaga nad „zwykłym” Gemini 3 Pro Preview jest symboliczna (81,5% vs 81,0%), co sugeruje, że upgrade to precyzyjny doping rozumowania, nie uniwersalny turbo-boost wszystkiego.
Google pokazuje też praktyczne case’y: od znalezienia subtelnego błędu logicznego w recenzowanym artykule matematycznym, przez zaprojektowanie metody wzrostu kryształów półprzewodnikowych na potrzeby nowych materiałów, po generowanie plików do druku 3D ze szkicu – łącznie z modelowaniem geometrii i wygenerowaniem STL. Innymi słowy: od teorii do śrubki.
Ważny niuans: to ma być „productized, test-time compute heavy mode”, nie demo z labu. Jeff Dean podkreślał, że przy zachowaniu topowych wyników Deep Think potrafi być bardzo efektywny kosztowo – nawet o 82% taniej per „task”. Kontekst do liczb dorzuca ARC Prize: półprywatne cenniki ewaluacji mówią o ~13,62 dol. za zadanie ARC-AGI-2 i ~7,17 dol. za ARC-AGI-1. To wciąż nie są grosze, ale rachunek zaczyna mieć sens, gdy stawką jest odkrycie błędu w dowodzie albo szybszy prototyp działającej części.
OpenAI: prędkość jako funkcja
OpenAI z kolei zagrało w zupełnie inną nutę i pokazało GPT-5.3 Codex-Spark – „mniejszy” wariant skoncentrowany na ekstremalnej przepustowości. Dzięki głębokiej integracji z hardware’em Cerebrasa (WSE-3, czyli jeden wielki chip wielkości wafla krzemowego zamiast stada GPU gadających po kablach) Spark wyrzuca stabilnie ponad 1000 tokenów na sekundę, około 15 razy szybciej niż flagowy GPT-5.3 Codex. [3][2]
Sama krzemowa magia to nie wszystko: OpenAI przebudowało ścieżkę komunikacji i wprowadziło stałe połączenia WebSocket, co technicznie tnie narzut RTT o 80%, skraca czas do pierwszego tokena o 50% i zmniejsza per-token overhead o 30%. Efekt uboczny? „Real-time steering” – możesz przerwać generację i przestawić logikę w locie, zamiast czekać na cały blok. Trade-off jest uczciwie opisany: Spark gorzej radzi sobie w złożonym, wieloplikowym refaktorze, ma płytsze rozumowanie i nie spełnia wysokiego progu cyberbezpieczeństwa przypisanego flagowemu Codexowi. Za to dla deva na iteracjach minuta-po-minucie brzmi to jak dar z nieba. Spark jest dostępny dla użytkowników ChatGPT Pro i developerów (apka Codex, wtyczka VS Code, CLI). [3]
Pieniądze i agentowość: Anthropic i MiniMax
Jeśli wierzyć podsumowaniom branżowego newslettera, Anthropic domknął rundę wartą 30 mld dol. przy wycenie 380 mld dol., z imponującym skokiem przychodów do 14 mld dol. (Claude Code ma mieć 2,5 mld ARR YTD). To kosmiczne liczby i – dopóki firmy nie pokażą sprawozdań – warto je traktować jako sygnał trendu: kapitał płynie w „agentic AI” i modele, które nie tylko odpowiadają, ale działają w imieniu użytkownika.
Z drugiej strony sceny mamy MiniMax M2.5 z Chin, który w „open agentic coder” bije się z GLM-5 Zhipu i chwali 80,2% na SWE-Bench Verified – poziom mający równać do Clauda Opusa w tych metrykach. Co ciekawsze, model natychmiast trafił do ekosystemu: OpenRouter, Arena, IDE/agenci (Cline), a nawet integracje w stylu Ollama Cloud. W praktyce: coraz lepszy „agent-koder” jest w zasięgu jednego przełącznika w narzędziach, których programiści już używają.
Dlaczego to ma znaczenie
François Chollet (twórca ARC) przypomina, że wysokie wyniki na ARC-AGI-2 nie „dowodzą AGI”. Benchmark ma pchać badania w kierunku adaptacji w czasie testu i płynnej inteligencji, a nie być ostateczną pieczęcią. I to widać: Google dowozi tryb, który naprawdę pomaga w nauce i inżynierii – nawet jeśli multimodalnie nie odjeżdża daleko – a OpenAI dostarcza narzędzie, które zmienia rytm pracy programisty z „zadaj-zaczekaj” na „gadaj-steruj-w locie”. A inwestorzy? Stawiają na to, że kolejne piętro wzrostu przyjdzie z agentów robiących realną robotę, nie tylko wypisujących ładne zdania.
Można powiedzieć, że wyścig zbrojeń w AI zamienił się w triathlon: rozumowanie, prędkość i koszt. Nie wygra ten, kto ma najładniejszy slajd, tylko ten, kto dowiezie przewidywalny efekt w danym workflow – od dowodu w topologii, przez przepis na kryształ, po hotfix w mikroserwisie o 16:57.
Na koniec pytanie do was: w waszych zespołach dziś większą wartość ma „myślenie głębiej” czy „odpisywanie szybciej”? I czy jeśli model złapie wasz błąd w wyprowadzeniu albo zwróci poprawny STL za pierwszym razem, to nadal będziecie liczyć tokeny – czy już tylko czas?
FAQ
Czy Gemini 3 Deep Think jest dostępny dla wszystkich użytkowników?
Nie, na razie tylko dla subskrybentów płatnej wersji w aplikacji Gemini oraz wczesnego dostępu przez Gemini API/Vertex AI dla wybranych badaczy i firm. Google zapowiada rozszerzanie dostępu etapami.
Czy Gemini 3 Deep Think to osobny model, czy tryb w Gemini?
To tryb rozumowania w rodzinie Gemini 3, który uruchamia bardziej deliberatywne, równoległe wnioskowanie. Użytkownik wybiera „Deep Think” w pasku promptu przy Gemini 3 Pro.
Jak szybko działa GPT-5.3 Codex-Spark i gdzie mogę go użyć?
Model osiąga ponad 1000 tokenów/s dzięki integracji z Cerebras WSE-3. Jest dostępny dla użytkowników ChatGPT Pro i developerów w aplikacji Codex, rozszerzeniu VS Code i przez CLI.
Czy GPT-5.3 Codex-Spark nadaje się do zadań bezpieczeństwa?
Nie, Spark nie spełnia wysokiego progu bezpieczeństwa przypisanego flagowemu Codexowi. Nie używaj go do wrażliwej logiki czy autonomicznego uwierzytelniania.
Jak wypada MiniMax M2.5 w kodowaniu w porównaniu z topowymi modelami?
Według dostępnych danych MiniMax M2.5 osiąga 80,2% na SWE-Bench Verified, poziom porównywalny z Claudem Opusem w tej metryce. Model jest szeroko dostępny przez popularne integracje.
Źródła
- [1] https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/
- [2] https://latent.space/p/ainews-new-gemini-3-deep-think-anthropic
- [3] https://marktechpost.com/2026/02/12/openai-releases-a-research-preview-of-gpt-5-3-codex-spark-a-15x-faster-ai-coding-model-delivering-over-1000-tokens-per-second-on-cerebras-hardware/
- [4] https://the-decoder.com/google-deepmind-upgrades-gemini-3-deep-think-for-complex-science-and-engineering-tasks/
- [5] https://ts2.tech/en/ai-news-today-december-5-2025-gemini-3-deep-think-anthropics-agentic-ai-and-fresh-security-warnings/
- [6] https://techbuzz.ai/articles/google-unveils-gemini-3-deep-think-for-science-engineering
- [7] https://9to5google.com/2026/02/12/gemini-3-deep-think-upgrade/
- [8] https://chromeunboxed.com/googles-new-gemini-3-deep-think-update-pushes-the-boundaries-of-ai-reasoning/
- [9] https://blog.google/products-and-platforms/products/gemini/gemini-3-deep-think/
To nie jest ozdobnik. To ślad po procesie: ile informacji było szumem, ile stało się wiedzą i jak wyglądał research, zanim powstał ten tekst.
1. Zbieranie sygnałów (discovery)
- RSS - źródeł w configu
- 89
- RSS - stan źródeł
- 88 / 89 OK (fail: 1)
- RSS - przepływ (od surowych do unikalnych)
- 3037 -> 2953 -> 438 -> 319
- RSS - usunięte duplikaty tytułów
- 1
- Pula tematów (z RSS)
- 319
- Wybrane do analizy
- 194
- Odrzucone
- 94
- Klastry (wątki)
- 155
2. Selekcja i filtrowanie
- Odrzucono semantycznie (embedding)
- 13
3. Wyszukiwanie i wzbogacanie
- Zapytania wyszukiwawcze
- 21
- Unikalne wyniki
- 44
- Kandydaci
- 31
- Dodane z wyszukiwania (cache+live)
- 6
- Przeskanowano URL-i (research)
- 4
4. Finalny kontekst
- Źródła użyte w tekście
- 9
- Źródła (domeny)
- 8
- Wikipedia - kontekst
- tak
- Expansion - kontekst
- nie
- Wyłuskane liczby
- 2




