OpenAI wprowadza Codex Security - zmienia zasady audytu kodu

Czy jesteś gotów oddać audyt bezpieczeństwa agentowi, który w miesiąc przeleciał 1,2 miliona commitów? OpenAI twierdzi, że ich Codex Security nie tylko znajdzie luki, udowodni je i zasugeruje sensowne łatki.

OpenAI uruchomiło Codex Security – agenta do analizy bezpieczeństwa kodu, który w 30 dni przeskanował ponad 1,2 mln commitów i wyłapał 792 krytyczne oraz 10 561 wysokiej wagi problemy. Narzędzie działa jako „research preview” dla użytkowników ChatGPT Pro, Enterprise, Business i Edu, przez pierwszy miesiąc za darmo. Sercem podejścia jest kontekst: najpierw model buduje zrozumiały opis zagrożeń w projekcie, potem waliduje znaleziska w piaskownicy i dopiero wtedy proponuje poprawki.

Dlaczego to ważne? Bo zespoły bezpieczeństwa uginają się dziś nie pod ciężarem ataków, tylko pod lawiną fałszywych alarmów. A jednocześnie coraz więcej kodu piszą modele, które – jak wykazała analiza z 2025 r. – potrafią przemycić podatności w 45% przypadków. Jeśli agent potrafi realnie odsiać szum (OpenAI mówi o spadku fałszywych pozytywów o ponad 50% i redukcji „hałasu” nawet o 84% w jednej z baz), to może realnie odciążyć zespoły: mniej triage’u, więcej napraw.

Ilustracja przedstawiająca futurystyczne środowisko audytu kodu w stylu 2.5D. — Grafika koncepcyjna (AI)

O co chodzi

Codex Security to ewolucja wewnętrznego narzędzia Aardvark (prywatna beta od października 2025 r.). Agent startuje od analizy repozytorium i tworzy edytowalny „threat model” – naturalnie brzmiący opis zaufanych granic systemu, punktów ekspozycji i tego, co naprawdę jest krytyczne. Na tej mapie ryzyka opiera późniejsze skanowanie. [1]

Ilustracja przedstawiająca futurystyczne środowisko audytu kodu z neonowymi akcentami. — Grafika koncepcyjna (AI)

Potem przychodzi najważniejsze: walidacja. Agent „dociska” zgłoszenia w odizolowanym środowisku, przygotowując działające PoC. Gdy skonfigurujesz mu środowisko pod konkretny projekt, potrafi testować podatności w kontekście uruchomionego systemu. Dzięki temu do rąk zespołów trafiają wyniki z większym ciężarem dowodowym, a nie długie listy „może-być-problemów”.

Jak to działa w praktyce

Żeby wystartować, dajesz narzędziu dostęp do repo. Codex Security tworzy tymczasową kopię w kontenerze i przegląda kod – w dużych bazach może to potrwać nawet kilka dni. Efektem jest threat model i lista podatności posortowanych według realnego wpływu. System trzyma też logi odrzuconych znalezisk, więc można je potem przejrzeć, gdyby któreś okazało się jednak trafne. Dla każdego potwierdzonego problemu generuje propozycję poprawki z kodem i opisem; po review można ją jednym kliknięciem wysłać dalej w procesie wdrożenia. Praktyczny plan na start: zacznij od kluczowych repozytoriów; skonfiguruj środowisko uruchomieniowe, by walidacja PoC miała sens; włącz przegląd i testy przed wdrożeniem łatek; monitoruj wskaźniki fałszywych pozytywów i kalibruj reguły; zintegruj wyniki z istniejącym CI/CD oraz ticketingiem.

Wyniki, nie deklaracje

W ciągu ostatniego miesiąca agent przebadał ponad 1,2 mln commitów i zgłosił 792 krytyczne oraz 10 561 wysokiej wagi problemów. Krytyczne luki pojawiły się w mniej niż 0,1% commitów – sygnał, że narzędzie jest w stanie trawić duże wolumeny bez zalewania zespołów alertami. OpenAI raportuje, że wraz z kolejnymi przebiegami precyzja rosła: fałszywe pozytywy spadły o ponad połowę, a „nadmuchane” oceny istotności – o ponad 90%.

To nie były wyłącznie akademickie repozytoria. Agent znalazł podatności w powszechnie używanych projektach open source: OpenSSH, GnuTLS, GOGS, Thorium, libssh, PHP czy Chromium. Część błędów otrzymała już identyfikatory CVE – m.in. GnuPG (CVE-2026-24881, CVE-2026-24882), GnuTLS (CVE-2025-32988, CVE-2025-32989), GOGS (CVE-2025-64175, CVE-2026-25242) czy cała seria luk w Thorium (CVE-2025-35430 do CVE-2025-35436). Łącznie przyznano 14 CVE na podstawie znalezisk Codex Security, w tym kilka z równoległym zgłoszeniem przez innych badaczy. [1]

Open source w centrum

OpenAI nie tylko skanuje to, co u klientów. Firma przyznaje, że bieżąco audytuje kluczowe OSS, z których sama korzysta, i zgłasza wyłącznie wysokokonfidencyjne znaleziska do maintainerów. Równolegle rusza program „Codex for OSS”: darmowe konta ChatGPT Pro, wsparcie w code review i dostęp do Codex Security dla kwalifikujących się opiekunów projektów. To ukłon w stronę społeczności i pragmatyczne poszerzanie bazy testowej – bo agent najlepiej działa w realnych wdrożeniach.

Konkurencja oddycha w kark

Ruch OpenAI przychodzi chwilę po debiucie Claude Code Security od Anthropic, które obiecuje niemal to samo: skanowanie baz, weryfikację w piaskownicy i rekomendacje łatek. Na horyzoncie widać też starych wyjadaczy aplikacyjnego security (Snyk, Semgrep, Veracode), a Google dopiero co opublikowało własną architekturę bezpieczeństwa agentów w Chrome. Innymi słowy: zaczyna się wyścig, kto zamieni „hałaśliwe SAST-y” w coś, co naprawdę pomaga, a nie przeszkadza.

Pytania bez odpowiedzi

Na razie Codex Security działa przez interfejs Codex w sieci i nie ma publicznego API. OpenAI nie mówi też, która z „modelowych bestii” napędza wnioskowanie, ani ile narzędzie będzie kosztować po darmowym miesiącu. To ważne, bo adopcja w dużych organizacjach rozbija się zwykle o integracje i budżety, nie o same wskaźniki precyzji.

Komentarz: sygnał ważniejszy niż hałas

Jeśli miałbym wskazać walutę, za którą kupuje się zaufanie zespołów AppSec, to jest nią „signal-to-noise”. Triage setek fałszywych alertów to strata czasu i pieniędzy. W tym sensie podejście „kontekst → walidacja → łatka” wygląda rozsądnie. Ale wygoda „jednego kliknięcia do produkcji” w realnych procesach kontroli zmian szybko stygnie: organizacje będą chciały zobaczyć PoC, testy regresji i zgodność z własnymi zasadami. Agent, który rozumie system i potrafi udowodnić zagrożenie, ma przewagę – pod warunkiem, że da się go wpiąć w istniejące pipeline’y i że nie zmieni się w kolejną czarną skrzynkę, której trzeba pilnować.

Podsumowanie

Codex Security celuje w bolączkę ery AI-kodowania: więcej kodu, więcej szans na błąd, mniej czasu na mądrą rewizję. Liczby z bety wyglądają obiecująco, a nacisk na walidację i „mało, ale konkretnie” trafia w sedno. Teraz do gry wchodzi rzeczywistość: integracje, polityki, koszty. Pytanie do ciebie: wpuścisz agenta do CI/CD już dziś, czy poczekasz, aż ktoś inny przekona się, gdzie są krawędzie?

FAQ

Czy OpenAI Codex Security jest darmowy?

Tak, w wersji „research preview” jest bezpłatny przez pierwszy miesiąc. Po tym okresie OpenAI nie podało jeszcze cennika.

Dla kogo dostępny jest Codex Security?

Dostęp jest dla użytkowników ChatGPT Pro, Enterprise, Business i Edu, przez interfejs Codex w przeglądarce.

Czy Codex Security ma publiczne API?

Nie, obecnie działa przez webowy interfejs Codex; OpenAI nie zapowiedziało API ani terminu jego udostępnienia.

Ile podatności zidentyfikował Codex Security w otwartym oprogramowaniu?

Wyniki obejmują 14 zgłoszeń z identyfikatorami CVE w projektach takich jak OpenSSH, GnuTLS, GOGS, Thorium, libssh, PHP i Chromium. [4]

Jak długo trwa skanowanie repozytorium przez Codex Security?

Analiza może zająć do kilku dni, bo agent tworzy kopię repo w odizolowanym kontenerze, buduje threat model i waliduje znaleziska w piaskownicy.

Źródła

🧠 Czy ten artykuł dał Ci nową perspektywę?

Jedno kliknięcie. Zero kont. PressMind uczy się razem z Tobą.

Ładowanie oceny…

PressMind Labs - Ślad badawczy

To nie jest ozdobnik. To ślad po procesie: ile informacji było szumem, ile stało się wiedzą i jak wyglądał research, zanim powstał ten tekst.

9 źródeł użytych w tekście

9 niezależnych domen

2 min 10 s czas researchu

Wysoki sygnał jakości

Skan tematu

199 z 319 sygnałów (RSS: 3122)

Zachowano: 199 (62%) | Odrzucono: 87 (27%)

Źródła (finalne)

9 źródeł z 9 domen

Start: 2 | Finalnie: 9

Czas researchu

2 min 10 s

Różnorodność domen: 9 Źródła użyte: 9 Kontekst: pominięty Liczby w tekście: 1

1. Zbieranie sygnałów (discovery)

Temat

OpenAI Codex Security Scanned 1.2 Million Commits and Found 10,561 High-Severity Issues

RSS - źródeł w configu: 89
RSS - stan źródeł: 87 / 89 OK (fail: 2)
RSS - przepływ (od surowych do unikalnych): 3122 -> 3032 -> 433 -> 319
RSS - usunięte duplikaty tytułów: 1
Pula tematów (z RSS): 319
Wybrane do analizy: 199
Odrzucone: 87
Klastry (wątki): 153

2. Selekcja i filtrowanie

Odrzucono jako nieaktualne (filtr daty): 1
Odrzucono semantycznie (embedding): 6

3. Wyszukiwanie i wzbogacanie

Zapytania wyszukiwawcze: 21
Unikalne wyniki: 48
Kandydaci: 19
Dodane z wyszukiwania (cache+live): 8
Przeskanowano URL-i (research): 2

4. Finalny kontekst

Źródła użyte w tekście: 9
Źródła (domeny): 9
Wikipedia - kontekst: nie
Expansion - kontekst: nie
Wyłuskane liczby: 1

Ten proces pokazuje, jak z dziesiątek sygnałów wyłania się kilka sprawdzonych źródeł, na których oparto finalny tekst.

OpenAI wprowadza Codex Security – zmienia zasady audytu kodu