Elon Musk, dobrze znany wizjoner i założyciel firm takich jak SpaceX i Tesla, wyraził opinię zgodną z coraz częstszymi głosami w świecie sztucznej inteligencji – dostępnych danych rzeczywistych do trenowania modeli AI w dużej mierze już brakuje. Podczas transmisji na platformie X, rozmowa z Markiem Pennem, przewodniczącym Stagwell, ujawniła pesymistyczne spojrzenie na obecną sytuację. „Zasadniczo wyczerpaliśmy już całkowitą sumę ludzkiej wiedzy w kontekście treningu AI” – stwierdził Musk, sugerując, że ten moment miał miejsce w ubiegłym roku.
Musk, jako właściciel firmy xAI, odwołał się do tematów poruszanych wcześniej przez Ilję Sutskevera, jednego z założycieli OpenAI. Sutskever, występując na konferencji NeurIPS, wskazał na osiągnięcie tzw. „szczytu danych”, co oznacza, że dalszy rozwój AI będzie wymagał odejścia od tradycyjnego podejścia w zbieraniu danych treningowych. Brak nowych danych może wymusić fundamentalną zmianę w sposobie, w jaki rozwijane są współczesne modele.
Jednym z potencjalnych rozwiązań, na które wskazał Musk, jest wykorzystanie danych syntetycznych, czyli generowanych przez same modele AI. „Jedynym sposobem na uzupełnienie danych rzeczywistych jest stworzenie syntetycznych, gdzie AI samo generuje dane treningowe” – wyjaśnił Musk. Opisywał ten proces jako formę „samooceny” i „samouczącego się” systemu, który mógłby samodzielnie ewoluować dzięki własnej pracy.
Nie tylko Musk dostrzega potencjał w danych syntetycznych. Największe firmy technologiczne, w tym Microsoft, Meta, OpenAI czy Anthropic, już wykorzystują taką metodę w procesie tworzenia swoich najnowszych modeli AI. Szacuje się, że według analityków z Gartner, w 2024 roku aż 60% danych używanych w projektach AI i analitycznych było generowanych w sposób syntetyczny.
Przykłady na to można znaleźć w działaniach branży – niedawno Microsoft udostępnił model Phi-4, który opierał się na danych syntetycznych i rzeczywistych. Podobnie było z modelami Gemma firmy Google, a także Claude 3.5 Sonnet autorstwa Anthropic. Nawet Meta wprowadziła do użytku najnowszą serię modeli Llama, które zostały udoskonalone przy pomocy danych wygenerowanych przez sztuczną inteligencję.
Wykorzystanie danych syntetycznych przynosi wiele korzyści. Poza możliwością obejścia ograniczeń związanych z dostępnością rzeczywistych danych, generowanie syntetyczne znacząco obniża koszty. Na przykład startup AI o nazwie Writer stworzył model Palmyra X 004, korzystając w dużej mierze z danych syntetycznych, a koszty jego rozwoju wyniosły około 700 tysięcy dolarów. Dla porównania, model o podobnej skali opracowany przez OpenAI mógł kosztować nawet 4,6 miliona dolarów.
Jednakże podejście to nie jest pozbawione wad. Badania pokazują, że nadmierne uzależnienie od danych syntetycznych może prowadzić do tzw. „kolapsu modelu”. Oznacza to, że AI traci swoją kreatywność i staje się bardziej podatne na uprzedzenia zakorzenione w danych, które zostały użyte podczas treningu. Jeśli dane wygenerowane syntetycznie są obarczone błędami lub ograniczeniami, modele AI będą powielały te same problemy, co z kolei może negatywnie wpłynąć na ich funkcjonalność i zdolność do innowacji.
Powyższe spostrzeżenia podnoszą kluczowe pytanie: czy przemysł AI znajdzie złoty środek między wykorzystywaniem danych syntetycznych a rzeczywistych? Na ten moment, rozwój sztucznej inteligencji wymaga równowagi i innowacyjnych podejść, które pozwolą na przezwyciężenie barier związanych z dostępnością danych. Niezależnie od wyzwań, które stoją na drodze, jedno jest pewne – przyszłość AI będzie w dużej mierze zależała od zdolności branży do efektywnego zarządzania tymi złożonymi problemami.