Ile Slacków potrzebujesz, żeby policzyć ilu masz płatnych użytkowników w jednym kraju? W OpenAI odpowiedź brzmiała: za dużo. Dlatego zbudowali Keplera – wewnętrznego agenta danych, który wreszcie robi to, co obiecują wszystkie demo AI: znajduje właściwe źródła, pisze sensowne zapytania i dowozi wynik, a nie tylko ładną gadkę.
OpenAI ma 70 tys. różnych zestawów danych, 600 petabajtów świeżych danych dziennie i 15 narzędzi, przez które trzeba się przekopać, żeby dostać jedną liczbę. Kepler, działający na GPT-5, chowa ten bałagan za jednym interfejsem. Przychodzisz z pytaniem, wychodzisz z tabelą, wykresem i, co ważne, większą szansą, że nie pomyliłeś się o rząd wielkości. Brzmi jak oczywistość? To dopiero zaczyna być standard.
W szerszym kadrze widać tu coś ważniejszego niż kolejny bot. Rynek mówi o „agentach”, ale prawdziwym wąskim gardłem w firmach nie jest model, tylko rurociągi danych i decyzje: którą tabelę wybrać, jak ją zjoinować, jak ocenić jakość. Kepler pokazuje, jak agent ma sens w praktyce – jako warstwa, która urealnia obietnicę „AI zrobi to za ciebie” na danych produkcyjnych, a nie na pokazowych notatnikach.
O co chodzi w Keplerze, tak naprawdę
OpenAI-owi analitycy i product managerowie gubili czas na rytuały: kto ma dostęp do tej hurtowni, która tabela ma użytkowników zalogowanych, a która „gości”, gdzie są zaszyfrowane pola i jak je dołączyć. „Pominięcie jednego niuansu może dać wynik błędny o rząd wielkości” – ostrzegała inżynierka z zespołu data productivity, Bonnie Xu. Kepler został zbudowany, by ten rytuał wygasić.
Agent działa w Slacku, IDE (np. Cursor), może też być podpięty w konkretne workflow i z urządzeń mobilnych. Pod spodem GPT-5 rozumie pytanie, wyszukuje właściwe zbiory, pisze i testuje SQL, iteruje, aż dostanie poprawny wynik, sortuje go, formatuje, a na koniec dorzuca wykres. Na pokazie z danymi o taksówkach w Nowym Jorku sam sięgnął po odpowiednie zbiory, policzył mediany i percentyle, i wskazał, które relacje i godziny są najbardziej „niewiarygodne” czasowo. Użytkownicy z finansów czy HR też się wkręcili – jeden z nich stwierdził, że to „najbliżej AGI”, co dotąd widział. Spokojnie: to nadal świetny analityk, nie profesor od wszystkiego.
Dlaczego to istotne (i jak wpisuje się w ruch agentów)
Od dwóch lat modele uczą się „rozumować”, a nie tylko kończyć zdania. OpenAI odpaliło falę wraz z o1, poszło dalej w GPT-5 i o3, opierając progres nie tylko na pre-treningu, ale też agresywnie skalując wzmocnienie (RL) i post-trening. Sam GPT-5 ma 750 mld parametrów i był sprawdzany m.in. na GPQA. Problem: RL potrzebuje ciągów zadań, środowisk i rzetelnego oceniania. OpenAI buduje takie środowiska i ewaluacje (jak gospodarcze GDPval z zadaniami przekrojowo przez 44 zawody), gdzie najlepsze modele potrafią już wygrać z ekspertami w 71% przypadków. Przekład na codzienność? Agenci coraz dłużej i sensowniej działają samodzielnie – ale tylko wtedy, gdy mają pod ręką porządną infrastrukturę danych i zwrotną informację o jakości. [1]
Kepler jest esencją tej ewolucji w środku organizacji: agent, który nie „rozmawia o rozmowie”, tylko wykonuje robotę na danych, z wbudowaną sanity check. I redukuje realny koszt tarcia – te wszystkie wątki „a która tabela?”, „a jaki zakres?”, które nigdzie nie trafiają do roadmapy, a zjadają połowę tygodnia.
Dane, narzędzia i grawitacja ekosystemu
Warto zobaczyć Keplera obok ruchów na zewnątrz. OpenAI pcha AgentKit – zestaw do budowy agentów z gotowym UI, orkiestracją, evals i rejestrem konektorów. Pięknie nazwane „redukcją tarcia” ma też mniej romantyczne imię: grawitacja danych. Kiedy kontrolujesz orkiestrację i ewaluację, zbierasz ślady rozmów agentów, porażki i sukcesy narzędzi, realne edge-case’y – bez oddawania ich integratorom. To materiał do kolejnych iteracji modeli i przewaga trudna do skopiowania. [7]
Równolegle pojawiają się sojusze, które „przywożą” modele do danych zamiast wozić dane do modeli. Integracja z Databricks daje klientom bezpośredni dostęp do GPT-5 w ich Data Intelligence Platform i Agent Bricks, z governance przez Unity Catalog. A dla inżynierów spoza gigantów są już proste wzorce: GPT-5 z narzędziami file_search czy managed RAG umie sam zadecydować, kiedy i jak przeszukać wektorowe repozytoria dokumentów, przepisać zapytanie pięcioma wersjami i scalić wyniki. W praktyce: Kepler to wewnętrzny archetyp, a ekosystem dookoła pączkuje w podobnym kierunku dla reszty świata. [8]
Zimna głowa: co tu może pójść nie tak
Żaden agent nie naprawi braku higieny danych. Jeśli w hurtowni masz pięć bliźniaczych tabel o lekko innych definicjach użytkownika, agent może trafić w złą – i zrobi to z pełną pewnością siebie. Kepler minimalizuje ryzyko przez testowanie i iteracje, ale governance nie dzieje się „magicznie”. Potrzebne są katalogi, polityki dostępu, ewalucje wyników i, tak, ludzie, którzy wiedzą, kiedy przestać ufać wykresowi.
Druga uwaga: to nie jest „AGI”, tylko bardzo pracowity analityk-orkiestrator. I to świetna wiadomość. Bo dokładnie takich agentów firmy dziś potrzebują – nie konwersacyjnych gadżetów, tylko narzędzi, które skracają drogę od pytania do wiarygodnej odpowiedzi, z audytowalnym śladem.
Na koniec
Kepler to sygnał, że moda na agentów przestaje być marketingową prezentacją. To opowieść o tym, gdzie AI naprawdę robi różnicę: w miejscach, gdzie każdy błąd kosztuje, a każde 30 minut mniej w Slacku to realna oszczędność. Pytanie nie brzmi „czy agent zastąpi analityka?”, tylko: jakie pytanie w twojej firmie Kepler załatwiłby dziś lepiej, taniej i bez trzech spotkań?
FAQ
Czy Kepler jest dostępny dla klientów spoza OpenAI?
Nie, Kepler jest narzędziem wewnętrznym OpenAI. Firma nie ogłosiła planów jego komercjalizacji.
Czy Kepler używa GPT-5 do przetwarzania zapytań?
Tak, Kepler korzysta z GPT-5 do zrozumienia pytania, doboru zbiorów danych i generowania oraz testowania zapytań.
Jak Kepler radzi sobie z ryzykiem błędnych zapytań SQL?
Kepler minimalizuje ryzyko przez iteracyjne testowanie i weryfikację zapytań, ale nie eliminuje potrzeby właściwego wyboru źródeł i kontroli jakości danych.
Czy OpenAI oferuje narzędzia do budowy podobnych agentów dla firm?
Tak, OpenAI rozwija AgentKit i integracje (np. z Databricks), które pozwalają budować agentów na danych przedsiębiorstw z wbudowanymi evals i governance.
Kiedy podobne rozwiązania trafią szerzej do ekosystemu narzędzi biurowych?
Już trafiają częściowo – integracje z platformami danych i managed RAG są dostępne, ale pełne, „keplerowe” doświadczenie wymaga dopasowania do danych i procesów konkretnej organizacji.
Źródła
- [1] https://newsletter.semianalysis.com/p/rl-environments-and-rl-for-science
- [2] https://technologyreview.com/2026/01/26/1131728/inside-openais-big-play-for-science/
- [3] https://techcrunch.com/2025/08/03/inside-openais-quest-to-make-ai-do-anything-for-you/
- [4] https://fortune.com/2025/12/18/openai-is-a-house-still-under-construction-but-no-one-agrees-what-its-made-of/
- [5] https://thenewstack.io/kepler-openais-internal-agent-platform-for-synthesizing-data/
- [6] https://adweek.com/media/openai-chatgpt-ads-job-listing-marketing-platform/
- [7] https://opusresearch.net/2025/10/10/openais-agentkit-meets-the-cx-moat/
- [8] https://techzine.eu/news/analytics/134937/databricks-and-openai-collaborate-on-enterprise-ai-models/
- [9] https://towardsdatascience.com/how-to-build-agents-with-gpt-5/
To nie jest ozdobnik. To ślad po procesie: ile informacji było szumem, ile stało się wiedzą i jak wyglądał research, zanim powstał ten tekst.
1. Zbieranie sygnałów (discovery)
- RSS - źródeł w configu
- 90
- RSS - stan źródeł
- 90 / 90 OK
- RSS - przepływ (od surowych do unikalnych)
- 3069 -> 2979 -> 449 -> 316
- RSS - usunięte duplikaty tytułów
- 4
- Pula tematów (z RSS)
- 316
- Wybrane do analizy
- 197
- Odrzucone
- 90
- Duplikaty (archiwum tematów)
- 1
- Klastry (wątki)
- 153
2. Selekcja i filtrowanie
- Odrzucono semantycznie (embedding)
- 9
3. Wyszukiwanie i wzbogacanie
- Zapytania wyszukiwawcze
- 18
- Unikalne wyniki
- 59
- Kandydaci
- 33
- Dodane z wyszukiwania (cache+live)
- 8
- Przeskanowano URL-i (research)
- 2
4. Finalny kontekst
- Źródła użyte w tekście
- 9
- Źródła (domeny)
- 9
- Wikipedia - kontekst
- nie
- Expansion - kontekst
- nie
- Wyłuskane liczby
- 2




