Jak obniżanie precyzji w modelach AI wpłynie na ich rozwój?
Jednym z kluczowych wyzwań, przed którymi stoi współczesna sztuczna inteligencja, jest kwestia efektywności. Jedną z technik stosowanych w celu jej zwiększenia jest kwantyzacja, czyli zmniejszanie liczby bitów wykorzystywanych do reprezentacji informacji. Chociaż proces ten może radykalnie obniżyć koszty obliczeniowe, badania sugerują, że ma on swoje ograniczenia, które mogą znacząco wpłynąć na przyszłość sztucznej inteligencji.
Czym jest kwantyzacja?
Kwantyzacja w kontekście AI odnosi się do procesu, w którym zmniejszana jest precyzja danych używanych przez modele, co pozwala ograniczyć wymagania obliczeniowe. Aby lepiej to zrozumieć, można posłużyć się prostą analogią: kiedy ktoś pyta o godzinę, zamiast odpowiedzieć „12:00:01,004”, możemy powiedzieć po prostu „południe”. Obie odpowiedzi są poprawne, ale różnią się poziomem szczegółowości. Kwantyzacja działa podobnie w modelach AI – zmniejszenie liczby używanych bitów ogranicza precyzję, co pozwala zmniejszyć obciążenie obliczeniowe.
Modele AI składają się z wielu komponentów, w szczególności z parametrów, które służą do podejmowania decyzji i generowania wyników. Podczas działania modeli wykonywane są miliony, a nawet miliardy obliczeń. Dzięki kwantyzacji te procesy stają się mniej zasobożerne, co pozwala na przyspieszenie działania systemu i zmniejszenie kosztów. Jednak proces ten nie jest doskonały i niesie za sobą kompromisy, których wpływ okazuje się bardziej znaczący niż wcześniej zakładano.
Badania odkrywają ograniczenia kwantyzacji
Najnowsze badania przeprowadzone przez zespoły z Harvardu, Stanfordu, MIT, Databricks i Carnegie Mellon pokazują, że modele po kwantyzacji mogą działać gorzej, jeśli ich pierwotne, niekwantyzowane wersje były intensywnie trenowane na ogromnych zestawach danych. W efekcie może okazać się bardziej opłacalne stworzenie mniejszego modelu od podstaw, niż „przycinanie” dużego modelu.
To odkrycie może być problematyczne dla firm inwestujących w rozwój gigantycznych modeli AI. Współczesne podejście polega bowiem na trenowaniu coraz większych modeli na ogromnych zbiorach danych w celu poprawy ich zdolności do generowania precyzyjnych odpowiedzi. Jednak statystyki wskazują, że takie podejście ma swoje granice. Dodatkowo próby upraszczania tych modeli poprzez kwantyzację przynoszą mieszane rezultaty, szczególnie w przypadku modeli takich jak Llama 3 od Meta.
Nowa perspektywa na skalowanie modeli
Obecny trend w branży AI polega na zwiększaniu skali – modele uczone są na coraz większych zbiorach danych, przy wykorzystaniu coraz większych zasobów obliczeniowych. Przykładowo, Llama 3 została przeszkolona na zestawie danych obejmującym 15 bilionów tokenów, podczas gdy Llama 2 na zaledwie 2 bilionach. Jednak inwestycje w rozwój ekstremalnie dużych modeli mogą nie zawsze przynosić oczekiwane korzyści.
Sceptycy wskazują na rosnące koszty działania takich rozwiązań. Choć trening modelu to wydatek liczony w setkach milionów dolarów (przykład: Google wydało około 191 milionów dolarów na szkolenie modelu Gemini), to koszty jego funkcjonowania – tzw. inferencja, czyli uruchamianie modelu w celu generowania odpowiedzi – mogą być znacznie wyższe. Jeśli na przykład system AI generowałby odpowiedzi na połowę zapytań w Google Search, koszty te mogłyby sięgać nawet 6 miliardów dolarów rocznie.
Jak uniknąć degradacji modeli?
Część badaczy sugeruje, że jednym ze sposobów na ograniczenie problemów wynikających z degradacji modeli jest trening z wykorzystaniem danych o „niskiej precyzji”. Chociaż dzisiejsze modele często trenowane są przy użyciu 16-bitowej precyzji, to w przyszłości mogą pojawić się architektury lepiej dostosowane do stabilnego działania w niskiej precyzji, takiej jak 8-bitowa czy nawet 4-bitowa.
Co jednak ważne, eksperci ostrzegają przed zbytnim zmniejszaniem precyzji. Badania pokazują, że zejście poniżej 7 lub 8 bitów może znacząco pogorszyć jakość działania modelu, chyba że jest on wyjątkowo duży pod względem liczby parametrów. Kluczem do sukcesu może być bardziej przemyślana selekcja danych treningowych, dzięki której mniejsze modele mogą osiągać równie dobre lub nawet lepsze wyniki.
Wnioski na przyszłość
Odkrycia te podkreślają, że nie ma łatwych rozwiązań, jeśli chodzi o zmniejszenie kosztów i zwiększenie efektywności modeli AI. Ograniczenie precyzji to tylko jedno z narzędzi, które mogą być stosowane, ale nie w każdym przypadku przynosi oczekiwane rezultaty. Jak zauważył Tanishq Kumar, pierwszy autor wspomnianego badania, „Nie można zmniejszać precyzji w nieskończoność bez negatywnego wpływu na modele. Ważniejsza staje się jakość danych, na których model jest trenowany, oraz projektowanie nowych architektur zoptymalizowanych pod kątem działania na niższej precyzji”.
W obliczu tych wyzwań przyszłość rozwoju sztucznej inteligencji może przynieść większy nacisk na drobiazgową selekcję danych oraz rozwój modeli dostosowanych do pracy efektywnej przy niższych wymaganiach obliczeniowych. Tymczasem dla firm zajmujących się AI oznacza to konieczność bardziej strategicznego podejścia do projektowania i wdrażania modeli, które skutecznie zaspokoją potrzeby użytkowników przy jednoczesnym ograniczeniu kosztów.