Czy „etyczny” AI da się zbudować na cudzych książkach? Adobe właśnie boleśnie sprawdza, ile kosztuje skrót przez czyjąś bibliotekę.
Adobe dostało pozew zbiorowy w sprawie rzekomego wykorzystania pirackich książek do trenowania SlimLM – własnego małego modelu językowego. Skarga, złożona w imieniu pisarki Elizabeth Lyon z Oregonu, śledzi łańcuch pochodzenia danych: od SlimLM przez SlimPajama-627B aż do RedPajama i kontrowersyjnego zestawu Books3. To nie tylko kolejny sądowy epizod w epoce generatywnej AI. Stawką jest coś, na czym firma budowała zaufanie klientów: teza, że ich modele powstają na danych „czystych” prawnie.
Dlaczego to ważne? Bo od dwóch lat spółka sprzedaje AI jako bezpieczne dla marek i praw autorskich – zwłaszcza w kontekście Firefly i Adobe Stock. Jeśli wewnątrz tego samego domu inny model bazował na zestawie z widocznymi znakami zapytania, to uderza nie tylko w wizerunek, ale i w praktyczne procedury: audyt danych, odpowiedzialność za „open source’owe” wsady i łańcuch dostaw treści.
O co chodzi, w wersji krótkiej: pozew twierdzi, że Adobe trenowało SlimLM … na zbiorze SlimPajama-627B. Ten zaś został opublikowany przez Cerebras w czerwcu 2023 roku jako „zdyduplikowany, wielokorpusowy, otwartoźródłowy” pakiet danych. Według skargi SlimPajama jest pochodną RedPajama, a RedPajama obejmował Books3 – kolekcję ok. 191 tys. książek, od lat krytykowaną za to, że zawiera chronione utwory przy bardzo wątpliwych podstawach licencyjnych. Lyon twierdzi, że jej poradniki non-fiction wylądowały w przetworzonym podzbiorze użytym do pretreningu. [2]
Jeśli myślicie: „Przecież to nie Firefly”, macie rację i to jest część problemu. Firma publicznie podkreślała, że Firefly powstał na licencjonowanych zbiorach (Adobe Stock, domena publiczna). SlimLM to jednak inna gałąź – językowa, nie obrazkowa – i inny łańcuch danych. W epoce, w której nawet średniej wielkości startupy korzystają z The Pile, RedPajama i podobnych pakietów, korporacja z portfelem enterprise nie może tłumaczyć się „przecież to open source”. Otwarte nie znaczy wolne od praw autorskich.
Są tu dwa wątki, które będą odgrywać rolę w sądzie i w PR:
- Pochodzenie danych: Adobe – co wynika z dokumentacji cytowanej w pozwie – wskazało SlimPajama-627B jako bazę pretreningu. SlimPajama to nie jest „czysta kartka”, tylko rekonstrukcja wielokorpusowa, z historią sięgającą RedPajama i Books3. Ten rodowód jest rdzeniem zarzutu.
- Zakres odpowiedzialności: nawet jeśli firma nie skompilowała Books3, to decyzja o użyciu pochodnej paczki spina ją z ryzykiem. Mówiąc brutalnie: garbage in, legal trouble out.
W tle są inne głośne sprawy: New York Times kontra OpenAI, autorzy i wydawcy przeciwko Meta czy Stability AI, Getty Images vs Stability AI. Te postępowania kształtują nową oś sporu: czy masowe kopiowanie treści do treningu to dozwolony użytek, czy systemowe naruszenie praw. Każdy kolejny przypadek wpływa na ewentualne precedensy, zwłaszcza w zakresie odpowiedzialności za łańcuch danych i obowiązku due diligence.
Warto też zauważyć, że mowa o małym modelu. SlimLM to nie wielki, internetożerny LLM, tylko kompakt do asysty w dokumentach, optymalizowany pod mobile. To czyni sprawę kłopotliwą dla branży: jeśli nawet „mały” model wykorzystywał Books3, to jak wygląda kontrola nad szkoleniem tych naprawdę dużych? W praktyce firmy będą musiały dokumentować nie tylko „co” trenowały, ale też „skąd, w jakiej wersji i z jakim filtrem”. Data lineage przestaje być hasłem w prezentacji i staje się elementem zarządzania ryzykiem prawnym.
Co wiemy z faktów:
- Skarga została złożona w imieniu Elizabeth Lyon, autorki poradników pisarskich, która twierdzi, że jej dzieła znalazły się w zestawie użytym do pretreningu SlimLM.
- Adobe opisuje SlimLM jako serię małych modeli „optymalizowanych do zadań asysty dokumentowej na urządzeniach mobilnych”.
- Firma wskazała, że pretrening przeprowadzono na SlimPajama-627B – otwartym korpusie 627 mld tokenów opublikowanym przez Cerebras w czerwcu 2023 roku.
- Pozew łączy SlimPajama z RedPajama i Books3, które od dawna krytykowano za włączanie chronionych książek bez zgody autorów.
Czego nie wiemy: jaką dokładnie część SlimLM zasilono tym korpusem, jakie filtry zastosowano i czy Adobe miało (lub uważało, że ma) podstawę prawną w postaci dozwolonego użytku czy innego wyjątku. Na tym etapie to „proposed class action” – propozycja pozwu zbiorowego, która jeszcze musi przejść przez sito certyfikacji. Innymi słowy, to początek, nie koniec.
W interpretacji na chłodno: sprawa nie rozstrzygnie sporu o fair use raz na zawsze, ale może doprecyzować, co znaczy „należyta staranność” przy korzystaniu z otwartych zestawów. Jeżeli sąd uzna, że firma odpowiada za wady w łańcuchu danych, nawet gdy korzysta z otwartoźródłowej paczki od innego podmiotu, konsekwencje odczuje cała branża. Z drugiej strony, jeśli Adobe obroni się argumentem transformacyjnego użycia i brakiem szkody rynkowej, będzie to argument dla tych, którzy chcą dalej trenować na „wszystkim, co jest w sieci”.
Z perspektywy rynku to sygnał dla działów prawnych: czasy deklaracji „trenujemy na otwartych danych” minęły. W nadchodzącym roku standardem stanie się audytowalna lista źródeł, filtry, dokumentacja deduplikacji i – jeśli firmę na to stać – licencje. Z perspektywy twórców: kolejny dowód, że ich prace są w danych treningowych nie tylko gigantów, ale i „pobocznych” modeli. To może przyspieszyć ugody, fundusze kompensacyjne lub nowe stawki licencyjne.
Na razie Adobe milczy lub mówi niewiele, a sprawa przenosi się z forów technologicznych do sądu. Cokolwiek się wydarzy, jedno jest pewne: AI zmienia się szybciej niż prawo, a takie pozwy dociągają regulacje do rzeczywistości. Pytanie brzmi nie „czy”, tylko jak długo potrwa ten spór.
Źródła
To nie jest ozdobnik. To ślad po procesie: ile informacji było szumem, ile stało się wiedzą i jak wyglądał research, zanim powstał ten tekst.
1. Zbieranie sygnałów (discovery)
- Znaleziono materiałów
- 80
- Wybrane do analizy
- 55
- Odrzucone
- 25
- Duplikaty
- 2
- Klastry (wątki)
- 55
- Expansion - użyto
- tak
- Expansion - dodano
- 1
2. Selekcja i filtrowanie
- Odrzucono po tytule
- 10
- Odrzucono semantycznie
- 6
3. Wyszukiwanie i wzbogacanie
- Zapytania wyszukiwawcze
- 9
- Unikalne wyniki
- 55
- Kandydaci
- 7
- Dodane z wyszukiwania
- 1
- Przeskanowano URL-i (seed)
- 1
4. Finalny kontekst
- Źródła użyte w tekście
- 2
- Źródła (domeny)
- 2
- Wikipedia - kontekst
- nie
- Expansion - kontekst
- +1
- Wyłuskane liczby
- 0




