Spór prawny dotyczący wykorzystywania treści przez sztuczną inteligencję
W ostatnich miesiącach świat prawniczy i technologiczny został pochłonięty gorącą debatą na temat legalności wykorzystywania materiałów chronionych prawem autorskim w celu trenowania modeli sztucznej inteligencji. Na czoło tej dyskusji wysunęła się sprawa, w której „The New York Times” i „Daily News” oskarżyły firmę OpenAI o bezprawne wykorzystywanie ich treści bez zgody. W ostatnich dniach sprawa nabrała nowego wymiaru, gdy okazało się, że inżynierowie OpenAI przypadkowo usunęli dane kluczowe dla postępowania.
Problematyczna utrata danych
Jesienią tego roku OpenAI zgodziło się udostępnić dwie wirtualne maszyny, aby prawnicy „New York Timesa” i „Daily News” mogli analizować zestawy danych wykorzystane do szkolenia modeli AI pod kątem obecności ich treści. Wirtualne maszyny to oprogramowanie symulujące działanie komputerów, które są często wykorzystywane w celach testowych, do tworzenia kopii zapasowych czy uruchamiania aplikacji. Dzięki temu narzędziu prawnicy i eksperci przez ponad 150 godzin przeszukiwali dane w poszukiwaniu dowodów naruszenia praw autorskich.
Jednak 14 listopada jedna z maszyn została opróżniona przez inżynierów OpenAI. Pomimo prób odzyskania informacji udało się przywrócić jedynie część danych. Niestety, struktura folderów i nazwy plików zostały bezpowrotnie utracone, co uniemożliwia jednoznaczne ustalenie, gdzie i jak treści będące własnością wydawców mogły zostać użyte do budowy modeli AI.
Sytuacja komplikuje pracę prawników
Usunięcie danych oznaczało, że zespoły prawników oraz ekspertów musiały rozpocząć swoją pracę niemal od początku. „The New York Times” i „Daily News” podkreślają, że wiązało się to z koniecznością ponownego poświęcenia ogromnej ilości czasu i zasobów obliczeniowych na przeprowadzenie tych samych analiz. W liście skierowanym do sądu w Nowym Jorku prawnicy wydawców wskazali, że utrata danych spowodowała tydzień opóźnienia w ich działaniach i znacząco skomplikowała przebieg postępowania.
Jednocześnie prawnicy wydawców zaznaczyli, że nie mają podstaw, aby twierdzić, że usunięcie danych było celowe. Mimo to sytuacja ta, według nich, wyraźnie pokazuje, że to OpenAI ma najlepsze narzędzia do przeszukiwania swoich własnych zbiorów danych w poszukiwaniu potencjalnych przypadków naruszenia praw autorskich.
OpenAI milczy, ale podpisuje nowe umowy
Przedstawiciele OpenAI odmówili komentarza w tej sprawie. Niemniej jednak firma stanowczo broni swojego stanowiska, twierdząc, że korzystanie z publicznie dostępnych materiałów, takich jak artykuły prasowe, w celu szkolenia modeli AI mieści się w granicach dozwolonego użytku. Modele takie jak GPT-4o uczą się generowania tekstu na podstawie miliardów przykładów, w tym książek, esejów czy artykułów, co według OpenAI nie wymaga licencji ani opłat.
Jednak pomimo tej argumentacji OpenAI zaczęło podpisywać liczne umowy licencyjne z wydawcami treści, takimi jak Associated Press, Axel Springer (właściciel Business Insider), Financial Times czy News Corp. Szczegóły tych umów nie są publicznie znane, ale jeden z partnerów, Dotdash Meredith, ujawnił, że otrzymuje od OpenAI co najmniej 16 milionów dolarów rocznie za licencjonowanie swoich treści.
Brak jasności co do przeszłości
Mimo podpisywania nowych umów OpenAI nie potwierdziło, czy w przeszłości używało konkretnych, chronionych prawem autorskim materiałów do szkolenia swoich modeli bez zgody właścicieli. To pozostawia otwarte pytania o to, czy firma powinna ponosić odpowiedzialność za wcześniejsze praktyki. Rosnąca liczba umów licencyjnych może sugerować, że OpenAI stara się uniknąć dalszych sporów prawnych, jednocześnie nie przyznając się do wcześniejszych naruszeń.
Wnioski płynące z całej sprawy
Spór między OpenAI a „New York Timesem” oraz „Daily News” jest kolejnym przykładem na to, jak rozwój technologii zmusza nas do redefinicji istniejących zasad dotyczących praw autorskich. Czy trenowanie modeli AI na publicznie dostępnych materiałach rzeczywiście mieści się w granicach dozwolonego użytku? Czy firmy technologiczne powinny ponosić większą odpowiedzialność za sposób, w jaki pozyskują dane do swoich systemów? To pytania, na które odpowiedzi mogą wpłynąć na przyszłość zarówno branży technologicznej, jak i wydawniczej.
Jedno jest pewne – rozwój sztucznej inteligencji wyprzedza tempo zmian w prawodawstwie. A to oznacza, że tego typu sprawy będą tylko przybierać na sile, wpływając na sposób, w jaki konsumujemy i chronimy treści w cyfrowym świecie.