Rola danych syntetycznych w przyszłości AI i branży podróży
Jednym z największych wyzwań stojących przed przyszłością korporacyjnej sztucznej inteligencji (AI) jest dostępność danych. Model AI jest bowiem tak dobry, jak dane, na których został przeszkolony. Aby osiągnąć znaczące rezultaty, niezbędne są ogromne ilości wysokiej jakości danych, a te często są trudne do zdobycia w wystarczających ilościach. Przykładowo, cała anglojęzyczna Wikipedia stanowi zaledwie 3-5% danych użytych do treningu modelu GPT-3 OpenAI. Aby zapewnić trwałą przyszłość AI, kluczowe jest zapełnienie tej luki w danych.
Zbieranie i używanie danych do trenowania modeli AI to skomplikowany proces wymagający precyzji, skalowalności oraz unikania uprzedzeń i błędów w danych. W odpowiedzi na ograniczenia związane z dostępnością tzw. danych organicznych coraz więcej twórców AI sięga po dane syntetyczne. To właśnie te dane, generowane sztucznie, zmieniają krajobraz współczesnego podejścia do uczenia maszynowego.
Czym są dane syntetyczne?
Dane syntetyczne to dane stworzone sztucznie za pomocą algorytmów, modeli statystycznych lub narzędzi generatywnej AI w celu odwzorowania charakterystyki i cech danych rzeczywistych. Według szacunków Gartnera, do 2024 roku aż 60% danych wykorzystywanych w projektach AI i analityce będzie generowanych syntetycznie.
Można porównać dane syntetyczne do zespołu coverowego. Nie zastępują oryginalnego wykonawcy, lecz wypełniają lukę, kiedy oryginału brakuje. Podobnie jak zespół coverowy gra znane piosenki dla podtrzymania ducha oryginału, dane syntetyczne uzupełniają istniejące zestawy danych, imitując rzeczywiste scenariusze. To nie tylko „fałszywe dane”, ale także narzędzie wzbogacające i poszerzające dane organiczne, by zapewnić najlepsze możliwe rezultaty uczenia maszynowego.
Dlaczego dane syntetyczne są istotne?
Dane syntetyczne służą zwiększeniu dokładności oraz uczciwości modeli AI. Dane rzeczywiste mogą być obarczone błędami lub nieodpowiednio zbalansowane, co prowadzi do tworzenia algorytmów niewłaściwie odzwierciedlających różnorodne populacje. Dzięki danym syntetycznym możliwe jest tworzenie zestawów danych lepiej reprezentujących zamierzone demografie, zmniejszając w ten sposób uprzedzenia i poprawiając solidność modeli.
Co więcej, dane syntetyczne wspierają zgodność z przepisami dotyczącymi danych osobowych, poprawiają efektywność i zwiększają inkluzywność. Sprawdzają się również w procesie testowania nowych produktów i funkcji, zapewniając równy dostęp do innowacji dla szerokiego grona odbiorców.
Przykłady zastosowania – branża podróży
Jednym z praktycznych zastosowań danych syntetycznych można znaleźć w branży podróży. Na przykład Expedia wykorzystuje dane syntetyczne w swojej funkcji prognozowania cen lotów. Dzięki użyciu AI analizowane są dane historyczne dotyczące cen biletów, co pozwala przewidywać przyszłe trendy cenowe na określonych trasach. To rozwiązanie umożliwia klientom planowanie podróży z pewnością, że dostali najlepszą ofertę, bez potrzeby ciągłego śledzenia zmian cen.
Wyzwanie stanowi jednak ograniczona dostępność danych organicznych dla różnorodnych wariantów lotów, takich jak klasa lotu, terminy czy kombinacje lotnisk. W celu uzupełnienia braków Expedia wykorzystała dane syntetyczne, imitujące wyszukiwania realizowane przez rzeczywistych użytkowników na ich platformie. Dane te pozwoliły stworzyć bardziej kompleksowe modele predykcyjne bez obciążania systemów realnych podróżnych.
Od czego zacząć przy pracy z danymi syntetycznymi?
Tworzenie danych syntetycznych powinno zaczynać się od jasnego określenia celu ich wykorzystania. To może obejmować trening modeli ML, testowanie nowych algorytmów czy poprawę odporności istniejących procesów. Ważne jest również przeanalizowanie, jakie cechy danych są najistotniejsze oraz czy istnieją odpowiednie relacje między zmiennymi, które należy zachować.
Kluczowym elementem jest zbudowanie relacyjnej bazy danych. Kolejnym krokiem jest opracowanie modelu generatywnego, który zrozumie wzorce w danych oryginalnych i na ich podstawie wygeneruje nowy, syntetyczny zestaw danych. Należy przy tym pamiętać, że dane syntetyczne zachowują własności matematyczne podobne do danych oryginalnych, jednak nie zawierają bezpośrednich informacji z pierwotnego zbioru. Dzięki temu są zarówno użyteczne, jak i zgodne z regulacjami o ochronie prywatności.
Ograniczenia i potencjalne ryzyka
Pomimo wielu zalet dane syntetyczne nie są wolne od wyzwań. Mogą na przykład przenosić lub nawet wzmacniać uprzedzenia obecne w danych oryginalnych. Wadliwe źródłowe dane mogą prowadzić do błędów w wersji syntetycznej, co jest szczególnie ryzykowne w tak krytycznych dziedzinach jak opieka zdrowotna czy finanse.
Co więcej, dane syntetyczne mogą mieć trudność w odwzorowywaniu złożoności ludzkich interakcji czy emocji, które są kluczowe w wielu aplikacjach AI. Dlatego niezbędne jest zaangażowanie ludzkiego czynnika w proces tworzenia i weryfikacji danych syntetycznych, aby uniknąć niezamierzonych skutków i dbać o wysoki poziom etyki w pracy z AI.
Dane syntetyczne mają ogromny potencjał w rozwoju sztucznej inteligencji, jednak wymagają odpowiedzialnego podejścia i staranności. Dzięki nim możliwe jest zredukowanie barier związanych z dostępnością danych, jednocześnie otwierając drzwi do nowych, innowacyjnych zastosowań. Czy jednak będziemy potrafili wykorzystać ich potencjał z należytym rozważaniem i etyką? Czas pokaże.