Czy jesteś gotów oddać audyt bezpieczeństwa agentowi, który w miesiąc przeleciał 1,2 miliona commitów? OpenAI twierdzi, że ich Codex Security nie tylko znajdzie luki, udowodni je i zasugeruje sensowne łatki.
OpenAI uruchomiło Codex Security – agenta do analizy bezpieczeństwa kodu, który w 30 dni przeskanował ponad 1,2 mln commitów i wyłapał 792 krytyczne oraz 10 561 wysokiej wagi problemy. Narzędzie działa jako „research preview” dla użytkowników ChatGPT Pro, Enterprise, Business i Edu, przez pierwszy miesiąc za darmo. Sercem podejścia jest kontekst: najpierw model buduje zrozumiały opis zagrożeń w projekcie, potem waliduje znaleziska w piaskownicy i dopiero wtedy proponuje poprawki.
Dlaczego to ważne? Bo zespoły bezpieczeństwa uginają się dziś nie pod ciężarem ataków, tylko pod lawiną fałszywych alarmów. A jednocześnie coraz więcej kodu piszą modele, które – jak wykazała analiza z 2025 r. – potrafią przemycić podatności w 45% przypadków. Jeśli agent potrafi realnie odsiać szum (OpenAI mówi o spadku fałszywych pozytywów o ponad 50% i redukcji „hałasu” nawet o 84% w jednej z baz), to może realnie odciążyć zespoły: mniej triage’u, więcej napraw.
O co chodzi
Codex Security to ewolucja wewnętrznego narzędzia Aardvark (prywatna beta od października 2025 r.). Agent startuje od analizy repozytorium i tworzy edytowalny „threat model” – naturalnie brzmiący opis zaufanych granic systemu, punktów ekspozycji i tego, co naprawdę jest krytyczne. Na tej mapie ryzyka opiera późniejsze skanowanie. [1]
Potem przychodzi najważniejsze: walidacja. Agent „dociska” zgłoszenia w odizolowanym środowisku, przygotowując działające PoC. Gdy skonfigurujesz mu środowisko pod konkretny projekt, potrafi testować podatności w kontekście uruchomionego systemu. Dzięki temu do rąk zespołów trafiają wyniki z większym ciężarem dowodowym, a nie długie listy „może-być-problemów”.
Jak to działa w praktyce
Żeby wystartować, dajesz narzędziu dostęp do repo. Codex Security tworzy tymczasową kopię w kontenerze i przegląda kod – w dużych bazach może to potrwać nawet kilka dni. Efektem jest threat model i lista podatności posortowanych według realnego wpływu. System trzyma też logi odrzuconych znalezisk, więc można je potem przejrzeć, gdyby któreś okazało się jednak trafne. Dla każdego potwierdzonego problemu generuje propozycję poprawki z kodem i opisem; po review można ją jednym kliknięciem wysłać dalej w procesie wdrożenia. Praktyczny plan na start: zacznij od kluczowych repozytoriów; skonfiguruj środowisko uruchomieniowe, by walidacja PoC miała sens; włącz przegląd i testy przed wdrożeniem łatek; monitoruj wskaźniki fałszywych pozytywów i kalibruj reguły; zintegruj wyniki z istniejącym CI/CD oraz ticketingiem.
Wyniki, nie deklaracje
W ciągu ostatniego miesiąca agent przebadał ponad 1,2 mln commitów i zgłosił 792 krytyczne oraz 10 561 wysokiej wagi problemów. Krytyczne luki pojawiły się w mniej niż 0,1% commitów – sygnał, że narzędzie jest w stanie trawić duże wolumeny bez zalewania zespołów alertami. OpenAI raportuje, że wraz z kolejnymi przebiegami precyzja rosła: fałszywe pozytywy spadły o ponad połowę, a „nadmuchane” oceny istotności – o ponad 90%.
To nie były wyłącznie akademickie repozytoria. Agent znalazł podatności w powszechnie używanych projektach open source: OpenSSH, GnuTLS, GOGS, Thorium, libssh, PHP czy Chromium. Część błędów otrzymała już identyfikatory CVE – m.in. GnuPG (CVE-2026-24881, CVE-2026-24882), GnuTLS (CVE-2025-32988, CVE-2025-32989), GOGS (CVE-2025-64175, CVE-2026-25242) czy cała seria luk w Thorium (CVE-2025-35430 do CVE-2025-35436). Łącznie przyznano 14 CVE na podstawie znalezisk Codex Security, w tym kilka z równoległym zgłoszeniem przez innych badaczy. [1]
Open source w centrum
OpenAI nie tylko skanuje to, co u klientów. Firma przyznaje, że bieżąco audytuje kluczowe OSS, z których sama korzysta, i zgłasza wyłącznie wysokokonfidencyjne znaleziska do maintainerów. Równolegle rusza program „Codex for OSS”: darmowe konta ChatGPT Pro, wsparcie w code review i dostęp do Codex Security dla kwalifikujących się opiekunów projektów. To ukłon w stronę społeczności i pragmatyczne poszerzanie bazy testowej – bo agent najlepiej działa w realnych wdrożeniach.
Konkurencja oddycha w kark
Ruch OpenAI przychodzi chwilę po debiucie Claude Code Security od Anthropic, które obiecuje niemal to samo: skanowanie baz, weryfikację w piaskownicy i rekomendacje łatek. Na horyzoncie widać też starych wyjadaczy aplikacyjnego security (Snyk, Semgrep, Veracode), a Google dopiero co opublikowało własną architekturę bezpieczeństwa agentów w Chrome. Innymi słowy: zaczyna się wyścig, kto zamieni „hałaśliwe SAST-y” w coś, co naprawdę pomaga, a nie przeszkadza.
Pytania bez odpowiedzi
Na razie Codex Security działa przez interfejs Codex w sieci i nie ma publicznego API. OpenAI nie mówi też, która z „modelowych bestii” napędza wnioskowanie, ani ile narzędzie będzie kosztować po darmowym miesiącu. To ważne, bo adopcja w dużych organizacjach rozbija się zwykle o integracje i budżety, nie o same wskaźniki precyzji.
Komentarz: sygnał ważniejszy niż hałas
Jeśli miałbym wskazać walutę, za którą kupuje się zaufanie zespołów AppSec, to jest nią „signal-to-noise”. Triage setek fałszywych alertów to strata czasu i pieniędzy. W tym sensie podejście „kontekst → walidacja → łatka” wygląda rozsądnie. Ale wygoda „jednego kliknięcia do produkcji” w realnych procesach kontroli zmian szybko stygnie: organizacje będą chciały zobaczyć PoC, testy regresji i zgodność z własnymi zasadami. Agent, który rozumie system i potrafi udowodnić zagrożenie, ma przewagę – pod warunkiem, że da się go wpiąć w istniejące pipeline’y i że nie zmieni się w kolejną czarną skrzynkę, której trzeba pilnować.
Podsumowanie
Codex Security celuje w bolączkę ery AI-kodowania: więcej kodu, więcej szans na błąd, mniej czasu na mądrą rewizję. Liczby z bety wyglądają obiecująco, a nacisk na walidację i „mało, ale konkretnie” trafia w sedno. Teraz do gry wchodzi rzeczywistość: integracje, polityki, koszty. Pytanie do ciebie: wpuścisz agenta do CI/CD już dziś, czy poczekasz, aż ktoś inny przekona się, gdzie są krawędzie?
FAQ
Czy OpenAI Codex Security jest darmowy?
Tak, w wersji „research preview” jest bezpłatny przez pierwszy miesiąc. Po tym okresie OpenAI nie podało jeszcze cennika.
Dla kogo dostępny jest Codex Security?
Dostęp jest dla użytkowników ChatGPT Pro, Enterprise, Business i Edu, przez interfejs Codex w przeglądarce.
Czy Codex Security ma publiczne API?
Nie, obecnie działa przez webowy interfejs Codex; OpenAI nie zapowiedziało API ani terminu jego udostępnienia.
Ile podatności zidentyfikował Codex Security w otwartym oprogramowaniu?
Wyniki obejmują 14 zgłoszeń z identyfikatorami CVE w projektach takich jak OpenSSH, GnuTLS, GOGS, Thorium, libssh, PHP i Chromium. [4]
Jak długo trwa skanowanie repozytorium przez Codex Security?
Analiza może zająć do kilku dni, bo agent tworzy kopię repo w odizolowanym kontenerze, buduje threat model i waliduje znaleziska w piaskownicy.
Źródła
- [1] https://thehackernews.com/2026/03/openai-codex-security-scanned-12.html
- [2] https://linkedin.com/posts/wong-kim-poh-7b46b435_openai-codex-security-scanned-12-million-activity-7436367801768112128-uroS
- [3] https://the420.in/openai-codex-security-vulnerabilities/
- [4] https://el-balad.com/16873366
- [5] https://benzinga.com/markets/private-markets/26/03/51109906/openai-launches-codex-security-vulnerability-scanner
- [6] https://cybersecuritynews.com/openai-launches-codex-security/
- [7] https://unite.ai/openai-launches-codex-security-to-find-vulnerabilities-in-code/
- [8] https://the-decoder.com/openai-launches-codex-security-an-ai-agent-designed-to-detect-vulnerabilities-in-software-projects/
- [9] https://siliconangle.com/2026/03/06/openai-introduces-codex-security-help-developers-fix-software-vulnerabilities/
To nie jest ozdobnik. To ślad po procesie: ile informacji było szumem, ile stało się wiedzą i jak wyglądał research, zanim powstał ten tekst.
1. Zbieranie sygnałów (discovery)
- RSS - źródeł w configu
- 89
- RSS - stan źródeł
- 87 / 89 OK (fail: 2)
- RSS - przepływ (od surowych do unikalnych)
- 3122 -> 3032 -> 433 -> 319
- RSS - usunięte duplikaty tytułów
- 1
- Pula tematów (z RSS)
- 319
- Wybrane do analizy
- 199
- Odrzucone
- 87
- Klastry (wątki)
- 153
2. Selekcja i filtrowanie
- Odrzucono jako nieaktualne (filtr daty)
- 1
- Odrzucono semantycznie (embedding)
- 6
3. Wyszukiwanie i wzbogacanie
- Zapytania wyszukiwawcze
- 21
- Unikalne wyniki
- 48
- Kandydaci
- 19
- Dodane z wyszukiwania (cache+live)
- 8
- Przeskanowano URL-i (research)
- 2
4. Finalny kontekst
- Źródła użyte w tekście
- 9
- Źródła (domeny)
- 9
- Wikipedia - kontekst
- nie
- Expansion - kontekst
- nie
- Wyłuskane liczby
- 1




