Problemy prawne OpenAI z wydawcami: Kontrowersje wokół wykorzystania treści chronionych prawem autorskim
W ostatnich miesiącach OpenAI stanęło w obliczu poważnych zarzutów prawnych związanych z rzekomym wykorzystywaniem treści chronionych prawem autorskim w procesie szkolenia swoich modeli AI. Dwie znane amerykańskie redakcje – „The New York Times” oraz „Daily News” – pozwały firmę, oskarżając ją o nieautoryzowane wykorzystanie ich treści. Sprawa zyskała dodatkowy rozgłos, gdy prawnicy oskarżycieli ogłosili, że inżynierowie OpenAI przypadkowo usunęli dane, które mogły być istotne dla rozstrzygnięcia sprawy.
Wirtualne maszyny i analiza danych
Jesienią tego roku OpenAI zgodziło się dostarczyć dwie wirtualne maszyny, które miały umożliwić prawnikom oraz ekspertom pracującym na rzecz „The New York Times” i „Daily News” przeszukiwanie zestawów danych treningowych używanych przez modele AI firmy. Wirtualne maszyny to oprogramowanie, które pozwala na symulowanie działania komputerów w ramach jednego systemu operacyjnego – często wykorzystuje się je do testowania, tworzenia kopii zapasowych lub uruchamiania aplikacji. Od 1 listopada eksperci poświęcili ponad 150 godzin na analizę danych w poszukiwaniu treści, które mogły być wykorzystane bez zgody wydawców.
Jednak 14 listopada doszło do incydentu, który znacznie skomplikował proces analizy. Według pisma złożonego w Sądzie Okręgowym dla Południowego Dystryktu Nowego Jorku, inżynierowie OpenAI usunęli dane dotyczące wyników wyszukiwania na jednej z maszyn. Chociaż firma podjęła działania mające na celu odzyskanie utraconych informacji, struktura folderów oraz nazwy plików zostały „nieodwracalnie” utracone. To sprawiło, że odzyskane dane stały się bezużyteczne w kontekście ustalenia, które artykuły mogły zostać wykorzystane do szkolenia modeli AI.
Konsekwencje dla wydawców
Prawnicy reprezentujący wydawców wyrazili swoje zaniepokojenie i podkreślili, że incydent zmusił ich do rozpoczęcia analizy od nowa, co wiąże się z ogromnymi nakładami pracy oraz czasu. „Nasz zespół został zmuszony do odtworzenia swojej pracy od podstaw, co wymagało znacznych nakładów godzin ludzkiej pracy oraz mocy obliczeniowej” – napisano w oświadczeniu. Co więcej, zespół prawny dowiedział się o bezużyteczności odzyskanych danych dopiero dzień przed zgłoszeniem tego faktu do sądu.
Chociaż prawnicy wydawców nie sugerują, że dane zostały usunięte celowo, uważają, że sytuacja ta pokazuje, iż OpenAI jest najlepiej przygotowane do przeprowadzania takich poszukiwań w swoich własnych zbiorach danych, zwłaszcza przy użyciu narzędzi, które samo stworzyło.
Odpowiedź OpenAI
OpenAI zaprzeczyło oskarżeniom o celowe usunięcie danych. W swojej odpowiedzi złożonej 22 listopada prawnicy firmy zasugerowali, że problem wynikał z błędnej konfiguracji systemu, o którą poprosił zespół prawników reprezentujących wydawców. „Zgodnie z żądaniem wnioskodawców, wprowadzono zmiany w konfiguracji jednej z maszyn, co spowodowało usunięcie struktury folderów i części nazw plików na dysku, który miał być używany jako tymczasowa pamięć podręczna” – wyjaśnili przedstawiciele OpenAI.
Firma zapewniła, że żadne pliki nie zostały trwale utracone i podkreśliła, że problem nie miał wpływu na główną linię obrony. OpenAI konsekwentnie utrzymuje, że szkolenie modeli AI na podstawie publicznie dostępnych danych, w tym artykułów prasowych, wpisuje się w ramy dozwolonego użytku (fair use). Firma nie uznaje za konieczne uzyskiwanie licencji ani opłacania wydawców za wykorzystanie takich danych, nawet jeśli na ich podstawie generuje przychody.
Kwestia licencji i współpracy z wydawcami
Mimo swojego stanowiska OpenAI w ostatnim czasie zawiera coraz więcej umów licencyjnych z wydawcami. W gronie tych, którzy zdecydowali się na współpracę z firmą, znaleźli się m.in. Associated Press, Financial Times oraz spółka Axel Springer, właściciel Business Insidera. Jednym z partnerów, który ujawnił szczegóły finansowe współpracy, jest Dotdash Meredith, wydawca magazynu „People”. Według raportów, OpenAI płaci tej firmie co najmniej 16 milionów dolarów rocznie za licencjonowanie jej treści.
OpenAI nie potwierdziło jednak, na jakich dokładnie materiałach były szkolone ich modele, ani czy w procesie tym wykorzystano konkretne treści chronione prawem autorskim bez zgody ich właścicieli.
Aktualizacja: W artykule dodano odpowiedź OpenAI na oskarżenia.