Sztuczna inteligencja

OpenAI wprowadza Keplera – agent danych, który zmienia grę w analizie danych

Ile Slacków potrzebujesz, żeby policzyć ilu masz płatnych użytkowników w jednym kraju? W OpenAI odpowiedź brzmiała: za dużo. Dlatego zbudowali Keplera – wewnętrznego agenta danych, który wreszcie robi to, co obiecują wszystkie demo AI: znajduje właściwe źródła, pisze sensowne zapytania i dowozi wynik, a nie tylko ładną gadkę.

OpenAI ma 70 tys. różnych zestawów danych, 600 petabajtów świeżych danych dziennie i 15 narzędzi, przez które trzeba się przekopać, żeby dostać jedną liczbę. Kepler, działający na GPT-5, chowa ten bałagan za jednym interfejsem. Przychodzisz z pytaniem, wychodzisz z tabelą, wykresem i, co ważne, większą szansą, że nie pomyliłeś się o rząd wielkości. Brzmi jak oczywistość? To dopiero zaczyna być standard.

W szerszym kadrze widać tu coś ważniejszego niż kolejny bot. Rynek mówi o „agentach”, ale prawdziwym wąskim gardłem w firmach nie jest model, tylko rurociągi danych i decyzje: którą tabelę wybrać, jak ją zjoinować, jak ocenić jakość. Kepler pokazuje, jak agent ma sens w praktyce – jako warstwa, która urealnia obietnicę „AI zrobi to za ciebie” na danych produkcyjnych, a nie na pokazowych notatnikach.

Futurystyczny agent danych w otoczeniu holograficznych ekranów analizy.
Grafika koncepcyjna (AI)

O co chodzi w Keplerze, tak naprawdę

OpenAI-owi analitycy i product managerowie gubili czas na rytuały: kto ma dostęp do tej hurtowni, która tabela ma użytkowników zalogowanych, a która „gości”, gdzie są zaszyfrowane pola i jak je dołączyć. „Pominięcie jednego niuansu może dać wynik błędny o rząd wielkości” – ostrzegała inżynierka z zespołu data productivity, Bonnie Xu. Kepler został zbudowany, by ten rytuał wygasić.

Futurystyczna scena analizy danych z agentem Kepler w neonowych kolorach na ciemnym tle.
Grafika koncepcyjna (AI)

Agent działa w Slacku, IDE (np. Cursor), może też być podpięty w konkretne workflow i z urządzeń mobilnych. Pod spodem GPT-5 rozumie pytanie, wyszukuje właściwe zbiory, pisze i testuje SQL, iteruje, aż dostanie poprawny wynik, sortuje go, formatuje, a na koniec dorzuca wykres. Na pokazie z danymi o taksówkach w Nowym Jorku sam sięgnął po odpowiednie zbiory, policzył mediany i percentyle, i wskazał, które relacje i godziny są najbardziej „niewiarygodne” czasowo. Użytkownicy z finansów czy HR też się wkręcili – jeden z nich stwierdził, że to „najbliżej AGI”, co dotąd widział. Spokojnie: to nadal świetny analityk, nie profesor od wszystkiego.

Dlaczego to istotne (i jak wpisuje się w ruch agentów)

Od dwóch lat modele uczą się „rozumować”, a nie tylko kończyć zdania. OpenAI odpaliło falę wraz z o1, poszło dalej w GPT-5 i o3, opierając progres nie tylko na pre-treningu, ale też agresywnie skalując wzmocnienie (RL) i post-trening. Sam GPT-5 ma 750 mld parametrów i był sprawdzany m.in. na GPQA. Problem: RL potrzebuje ciągów zadań, środowisk i rzetelnego oceniania. OpenAI buduje takie środowiska i ewaluacje (jak gospodarcze GDPval z zadaniami przekrojowo przez 44 zawody), gdzie najlepsze modele potrafią już wygrać z ekspertami w 71% przypadków. Przekład na codzienność? Agenci coraz dłużej i sensowniej działają samodzielnie – ale tylko wtedy, gdy mają pod ręką porządną infrastrukturę danych i zwrotną informację o jakości. [1]

Kepler jest esencją tej ewolucji w środku organizacji: agent, który nie „rozmawia o rozmowie”, tylko wykonuje robotę na danych, z wbudowaną sanity check. I redukuje realny koszt tarcia – te wszystkie wątki „a która tabela?”, „a jaki zakres?”, które nigdzie nie trafiają do roadmapy, a zjadają połowę tygodnia.

Dane, narzędzia i grawitacja ekosystemu

Warto zobaczyć Keplera obok ruchów na zewnątrz. OpenAI pcha AgentKit – zestaw do budowy agentów z gotowym UI, orkiestracją, evals i rejestrem konektorów. Pięknie nazwane „redukcją tarcia” ma też mniej romantyczne imię: grawitacja danych. Kiedy kontrolujesz orkiestrację i ewaluację, zbierasz ślady rozmów agentów, porażki i sukcesy narzędzi, realne edge-case’y – bez oddawania ich integratorom. To materiał do kolejnych iteracji modeli i przewaga trudna do skopiowania. [7]

Równolegle pojawiają się sojusze, które „przywożą” modele do danych zamiast wozić dane do modeli. Integracja z Databricks daje klientom bezpośredni dostęp do GPT-5 w ich Data Intelligence Platform i Agent Bricks, z governance przez Unity Catalog. A dla inżynierów spoza gigantów są już proste wzorce: GPT-5 z narzędziami file_search czy managed RAG umie sam zadecydować, kiedy i jak przeszukać wektorowe repozytoria dokumentów, przepisać zapytanie pięcioma wersjami i scalić wyniki. W praktyce: Kepler to wewnętrzny archetyp, a ekosystem dookoła pączkuje w podobnym kierunku dla reszty świata. [8]

Zimna głowa: co tu może pójść nie tak

Żaden agent nie naprawi braku higieny danych. Jeśli w hurtowni masz pięć bliźniaczych tabel o lekko innych definicjach użytkownika, agent może trafić w złą – i zrobi to z pełną pewnością siebie. Kepler minimalizuje ryzyko przez testowanie i iteracje, ale governance nie dzieje się „magicznie”. Potrzebne są katalogi, polityki dostępu, ewalucje wyników i, tak, ludzie, którzy wiedzą, kiedy przestać ufać wykresowi.

Druga uwaga: to nie jest „AGI”, tylko bardzo pracowity analityk-orkiestrator. I to świetna wiadomość. Bo dokładnie takich agentów firmy dziś potrzebują – nie konwersacyjnych gadżetów, tylko narzędzi, które skracają drogę od pytania do wiarygodnej odpowiedzi, z audytowalnym śladem.

Na koniec

Kepler to sygnał, że moda na agentów przestaje być marketingową prezentacją. To opowieść o tym, gdzie AI naprawdę robi różnicę: w miejscach, gdzie każdy błąd kosztuje, a każde 30 minut mniej w Slacku to realna oszczędność. Pytanie nie brzmi „czy agent zastąpi analityka?”, tylko: jakie pytanie w twojej firmie Kepler załatwiłby dziś lepiej, taniej i bez trzech spotkań?

FAQ

Czy Kepler jest dostępny dla klientów spoza OpenAI?

Nie, Kepler jest narzędziem wewnętrznym OpenAI. Firma nie ogłosiła planów jego komercjalizacji.

Czy Kepler używa GPT-5 do przetwarzania zapytań?

Tak, Kepler korzysta z GPT-5 do zrozumienia pytania, doboru zbiorów danych i generowania oraz testowania zapytań.

Jak Kepler radzi sobie z ryzykiem błędnych zapytań SQL?

Kepler minimalizuje ryzyko przez iteracyjne testowanie i weryfikację zapytań, ale nie eliminuje potrzeby właściwego wyboru źródeł i kontroli jakości danych.

Czy OpenAI oferuje narzędzia do budowy podobnych agentów dla firm?

Tak, OpenAI rozwija AgentKit i integracje (np. z Databricks), które pozwalają budować agentów na danych przedsiębiorstw z wbudowanymi evals i governance.

Kiedy podobne rozwiązania trafią szerzej do ekosystemu narzędzi biurowych?

Już trafiają częściowo – integracje z platformami danych i managed RAG są dostępne, ale pełne, „keplerowe” doświadczenie wymaga dopasowania do danych i procesów konkretnej organizacji.

Źródła

🧠 Czy ten artykuł dał Ci nową perspektywę?
Jedno kliknięcie. Zero kont. PressMind uczy się razem z Tobą.
Ładowanie oceny…

PressMind Labs - Ślad badawczy

To nie jest ozdobnik. To ślad po procesie: ile informacji było szumem, ile stało się wiedzą i jak wyglądał research, zanim powstał ten tekst.

9 źródeł użytych w tekście
9 niezależnych domen
1 min 52 s czas researchu
Wysoki sygnał jakości
Skan tematu
197 z 316 sygnałów (RSS: 3069)
Zachowano: 197 (62%) | Odrzucono: 90 (28%)
Źródła (finalne)
9 źródeł z 9 domen
Start: 2 | Finalnie: 9
Czas researchu
1 min 52 s
Różnorodność domen: 9 Źródła użyte: 9 Kontekst: pominięty Liczby w tekście: 2

1. Zbieranie sygnałów (discovery)

Temat
Inside OpenAI’s in-house data agent
RSS - źródeł w configu
90
RSS - stan źródeł
90 / 90 OK
RSS - przepływ (od surowych do unikalnych)
3069 -> 2979 -> 449 -> 316
RSS - usunięte duplikaty tytułów
4
Pula tematów (z RSS)
316
Wybrane do analizy
197
Odrzucone
90
Duplikaty (archiwum tematów)
1
Klastry (wątki)
153

2. Selekcja i filtrowanie

Odrzucono semantycznie (embedding)
9

3. Wyszukiwanie i wzbogacanie

Zapytania wyszukiwawcze
18
Unikalne wyniki
59
Kandydaci
33
Dodane z wyszukiwania (cache+live)
8
Przeskanowano URL-i (research)
2

4. Finalny kontekst

Źródła użyte w tekście
9
Źródła (domeny)
9
Wikipedia - kontekst
nie
Expansion - kontekst
nie
Wyłuskane liczby
2
Ten proces pokazuje, jak z dziesiątek sygnałów wyłania się kilka sprawdzonych źródeł, na których oparto finalny tekst.

Dodaj komentarz