Sztuczna inteligencja & Cyberbezpieczeństwo

OpenAI zbiera dane z biur – czy Twoje materiały są bezpieczne?

Czy twoja stara prezentacja dla zarządu nadaje się na test dla Sztucznej Inteligencji? OpenAI najwyraźniej uważa, że tak – o ile ją „porządnie wyszorujesz”.

OpenAI prosi zewnętrznych kontraktorów, by wgrywali „prawdziwe, zawodowe” zadania i gotowe pliki z obecnych lub dawnych miejsc pracy. Te materiały mają posłużyć do sprawdzania, jak ich „agenci” AI radzą sobie z realnymi, wieloetapowymi obowiązkami biurowymi. Brzmi praktycznie, ale dotyka wrażliwych obszarów: tajemnice przedsiębiorstwa, NDA, RODO i zdrowy rozsądek.

W tle jest wyścig o to, by AI przestała tylko gadać, a zaczęła robić robotę: planować, koordynować i dowozić. Do tego nie wystarczą akademickie benchmarki. Potrzeba próbek prawdziwej pracy – a ta rzadko bywa w 100% „anonimowa i niepoufna”.

Wizualizacja biura z profesjonalistami dyskutującymi przy ekranie danych.
Grafika koncepcyjna (AI)

Co OpenAI tak naprawdę zbiera

Według dokumentów widzianych przez Wired, w projekcie uczestniczą kontraktorzy wspierani przez firmę Handshake AI. Mają oni opisać konkretne zadanie (brief od szefa czy klienta) oraz dołączyć „realny, doświadczony ludzki rezultat”: plik Word, PDF, PowerPoint, Excel, obraz, a nawet repozytorium. Przykład z prezentacji: „Senior Lifestyle Manager” z luksusowej concierge przygotowuje dwustronicowy szkic tygodniowej wyprawy jachtem po Bahamach – i wgrywa prawdziwy itinerarium z przeszłości.

Ilustracja biura z kontraktorami analizującymi dane w stylu 2.5D.
Grafika koncepcyjna (AI)

Firma kilkukrotnie podkreśla, że oczekuje autentycznych efektów „z realnej pracy”, choć dopuszcza też przykłady sfabrykowane – o ile wiarygodne. Jest też wyraźna instrukcja „szorowania”: usuń dane osobowe, informacje poufne i materialnie niepubliczne. Kontraktorzy dostają nawet wskazówki do narzędzia ChatGPT o nazwie „Superstar Scrubbing”, które ma pomagać w anonimizacji. Na pytania mediów OpenAI i Handshake AI odmówiły komentarza. [2]

Dlaczego to się dzieje akurat teraz

We wrześniu spółka ogłosiła nowy proces ewaluacji, który ma mierzyć modele względem profesjonalistów z różnych branż. To ma być wskaźnik postępu w stronę AGI – systemu, który „przewyższa ludzi w większości ekonomicznie wartościowych zadań”. Innymi słowy, chodzi o sprawdzenie, czy agent potrafi wykonać coś, co normalnie zajmuje człowiekowi wiele godzin lub dni, a nie tylko odpowiedzieć na krótkie pytanie.

To wpisuje się w szerszy trend: laboratoria AI coraz częściej kupują, generują lub zlecają tworzenie danych, które przypominają prawdziwe, złożone obowiązki biurowe. Powstała wręcz mała branża wyspecjalizowanych dostawców „high-fidelity” zadań i deliverables. Bo żeby zautomatyzować pracę umysłową, trzeba najpierw ją dobrze zobaczyć – z całym kontekstem i szumem, jaki towarzyszy realnym procesom.

Granice prawne i zdroworozsądkowe

I tu zaczynają się schody. Prawnik ds. własności intelektualnej Evan Brown (Neal & McDevitt) powiedział Wired, że takie podejście „stawia laboratorium na duże ryzyko”. Dlaczego? Bo przerzuca na kontraktorów decyzję, co jest poufne, a co nie – a jeśli coś „przecieknie” mimo szorowania, mogą pojawić się roszczenia o naruszenie tajemnicy przedsiębiorstwa lub złamanie NDA. Prościej: jeśli ktoś wrzuci „oczyszczony” plik, a jednak zostawi ślady strategii, danych finansowych albo metadanych z nazwami klientów, problem mogą mieć wszyscy po kolei.

Według jednego ze źródeł cytowanych w relacjach o projekcie, rozważano nawet pozyskiwanie danych od firm w stanie likwidacji – co tylko podbija pytanie, czy da się zagwarantować dobrą anonimizację. Dodajmy, że OpenAI podkreśla: usuwać PII, nie udostępniać informacji poufnych. Tyle że to deklaracja, nie firewall.

Czy to ewaluacja, czy trening? Tak, ale…

W dokumentach mowa jest o benchmarkach i „ludzkiej bazie odniesienia”. Testy mają sprawdzać, czy i jak daleko agent da radę dobiec na prawdziwym zestawie zadań. TechCrunch zauważa jednak, że w szerszej branży podobne dane są karmą nie tylko do testów, ale i do samego treningu modeli. Granica między „sprawdzamy” a „uczymy” bywa płynna – i dla działów prawnych to różnica istotna.

Paradoks epoki agentów

To wszystko jest jednocześnie logiczne i ryzykowne. Chcemy agentów, którzy rozumieją kontekst, potrafią przełożyć mętny brief na działanie i dowieźć wynik. Ale kontekst i „mętne briefy” to często treści objęte NDA, z ukrytą strukturą danych, metadanymi, nazwami klientów i backstory, którego nie wymażesz jednym filtrem. Outsourcing anonimizacji do rozproszonej sieci kontraktorów brzmi rozsądnie na slajdzie – w praktyce to proszenie się o edge case’y. A te w prawie zwykle są najdroższe.

Branżowo, to również szybki test dojrzałości organizacji. Jeśli twoi ludzie, nawet prywatnie, zaczynają „dzielić się” dawnymi plikami w zamian za wynagrodzenie z platformy danych, czy masz politykę, szkolenia, monitoring? Czy wiesz, które dokumenty zawierają wrażliwe elementy w EXIF-ie, commitach, komentarzach, historii zmian? AGI może i rodzi się dziś w Excelu, ale razem z nim rodzą się stare, bardzo ludzkie problemy compliance.

Na koniec

OpenAI nie jest tu jedyne, ale jest najgłośniejsze – i to dobrze, bo publiczna dyskusja sprzyja przejrzystości. Jeśli branża chce budować agentów na „prawdziwych” zadaniach, musi też przyjąć „prawdziwe” standardy pozyskiwania danych: twarde check-listy, audyty, ograniczenia zakresu, a może i środowiska testowe z realistycznym „szumem”, który imituje życie biurowe. Do tego czasu warto uważnie czytać NDA i metadane. A jeśli twoja dawna prezentacja ma zostać poligonem dla AI, to przynajmniej upewnij się, że nie pływają po niej cudze Bahamy. [3]

FAQ

Czy OpenAI używa tych dokumentów do treningu modeli czy tylko do ewaluacji?

Według dostępnych raportów dokumenty mają służyć do ewaluacji agentów AI. OpenAI nie skomentowało szczegółów, a w branży podobne dane bywają wykorzystywane także do treningu. Granica między ewaluacją a treningiem nie zawsze jest jasna. [3]

Czy mogę legalnie udostępnić dokumenty z poprzedniej pracy w takim programie?

Z reguły nie, jeśli dokumenty obejmuje NDA lub zawierają tajemnice przedsiębiorstwa. Bezpieczną zasadą jest: nie udostępniaj niczego, czego nie wolno ci publicznie ujawniać.

Jak OpenAI chroni wgrywane materiały?

Instrukcje nakazują anonimizację i wskazują narzędzie „Superstar Scrubbing” w ChatGPT. Brak publicznych szczegółów o wewnętrznych kontrolach lub audytach po stronie OpenAI.

Jakie ryzyko ponosi firma, jeśli pracownik udostępni „oczyszczony” dokument?

Ryzyko roszczeń o naruszenie tajemnicy przedsiębiorstwa i złamanie NDA jest realne, nawet gdy usunięto oczywiste dane. Prawnik cytowany przez Wired ocenia, że takie podejście „stawia laboratorium na duże ryzyko”. Niedoskonała anonimizacja może prowadzić do roszczeń.

Dlaczego laboratoria AI potrzebują prawdziwych dokumentów biurowych?

Bo chcą mierzyć i doskonalić agentów na złożonych, wieloetapowych zadaniach, które przypominają realną pracę. Syntetyczne testy rzadko oddają pełny kontekst i „szum” prawdziwych procesów.

Źródła

🧠 Czy ten artykuł dał Ci nową perspektywę?
Jedno kliknięcie. Zero kont. PressMind uczy się razem z Tobą.
Ładowanie oceny…

PressMind Labs - Ślad badawczy

To nie jest ozdobnik. To ślad po procesie: ile informacji było szumem, ile stało się wiedzą i jak wyglądał research, zanim powstał ten tekst.

3 źródeł użytych w tekście
3 niezależnych domen
6 min 10 s czas researchu
Średni sygnał jakości
Skan tematu
51 z 80 materiałów
Zachowano: 51 (64%) | Odrzucono: 29 (36%)
Źródła (finalne)
3 źródeł z 3 domen
Start: 2 | Finalnie: 3
Czas researchu
6 min 10 s
Różnorodność domen: 3 Źródła użyte: 3 Kontekst: pominięty

1. Zbieranie sygnałów (discovery)

Temat
OpenAI Is Asking Contractors to Upload Work From Past Jobs to Evaluate the Performance of AI Agents
Znaleziono materiałów
80
Wybrane do analizy
51
Odrzucone
29
Klastry (wątki)
45

2. Selekcja i filtrowanie

Odrzucono po tytule
31
Odrzucono semantycznie (embedding)
2

3. Wyszukiwanie i wzbogacanie

Zapytania wyszukiwawcze
10
Unikalne wyniki
63
Kandydaci
3
Dodane z wyszukiwania (cache+live)
1
Przeskanowano URL-i (research)
2

4. Finalny kontekst

Źródła użyte w tekście
3
Źródła (domeny)
3
Wikipedia - kontekst
nie
Expansion - kontekst
nie
Wyłuskane liczby
0
Ten proces pokazuje, jak z dziesiątek sygnałów wyłania się kilka sprawdzonych źródeł, na których oparto finalny tekst.

Dodaj komentarz