Granice kwantyzacji w rozwoju modeli AI
Jednym z najczęściej stosowanych sposobów optymalizacji modeli sztucznej inteligencji (AI) jest tzw. kwantyzacja, czyli proces redukcji liczby bitów, które są używane do reprezentowania informacji. Chociaż kwantyzacja może przynosić wiele korzyści pod względem wydajności, okazuje się, że ta technika ma swoje ograniczenia, a przemysł AI może się szybko zbliżać do momentu, w którym te ograniczenia będą coraz bardziej odczuwalne.
Czym jest kwantyzacja?
Kwantyzacja, w kontekście AI, odnosi się do zmniejszenia liczby bitów — najmniejszych jednostek informacji, jakie komputer może przetwarzać — potrzebnych do reprezentowania danych. Najłatwiej to zrozumieć, porównując do codziennego życia: gdy ktoś zapyta o godzinę, zazwyczaj odpowiadasz „południe”, a nie „12:00, 1 sekunda i 4 milisekundy”. Obie odpowiedzi są poprawne, ale różnią się dokładnością. Ile tej dokładności faktycznie potrzebujemy, zależy od konkretnego kontekstu.
Modele AI składają się z wielu komponentów, które można kwantyzować, a szczególnie dotyczy to parametrów, czyli wewnętrznych zmiennych, których modele używają do podejmowania decyzji czy przewidywań. Kwantyzacja tych parametrów jest korzystna, ponieważ modele wykonują miliony obliczeń podczas pracy. Zmniejszenie liczby bitów potrzebnych do reprezentowania tych obliczeń sprawia, że są one mniej obciążające pod względem matematycznym, a co za tym idzie — mniej wymagające obliczeniowo.
Wyzwania związane z kwantyzacją
Chociaż kwantyzacja wydaje się atrakcyjna, najnowsze badania pokazują, że może ona mieć więcej negatywnych skutków niż wcześniej sądzono. Z badań przeprowadzonych przez zespoły naukowców z Harvardu, Stanfordu, MIT, Databricks oraz Carnegie Mellon wynika, że kwantyzowane modele radzą sobie gorzej, jeśli wersja pierwotna, przed kwantyzacją, była trenowana długo i na bardzo dużych zbiorach danych. Oznacza to, że w pewnym momencie lepiej jest po prostu wytrenować mniejszy model, zamiast próbować optymalizować potężny model poprzez kwantyzację.
To może oznaczać złe wieści dla firm zajmujących się AI, które trenują ogromne modele (co generalnie poprawia jakość odpowiedzi) i następnie kwantyzują je, aby zmniejszyć koszty ich obsługi.
Ograniczenia w praktyce
Już teraz widać skutki tych ograniczeń. Kilka miesięcy temu deweloperzy i naukowcy zauważyli, że kwantyzacja modelu Llama 3 stworzonego przez Meta była bardziej szkodliwa w porównaniu z innymi modelami, prawdopodobnie z powodu specyficznego sposobu jego trenowania.
Koszty związane z uruchamianiem modeli AI, czyli tzw. inferencją, są wyższe niż koszty ich trenowania. Przykładem może być Google, które wydało około 191 milionów dolarów na trenowanie modelu Gemini. Jednakże, jeśli firma użyłaby modelu AI do generowania odpowiedzi na połowę zapytań wyszukiwanych w Google, koszty obsługi mogłyby sięgnąć aż 6 miliardów dolarów rocznie.
Wielkie laboratoria AI od lat stawiają na trenowanie modeli na ogromnych zbiorach danych, w nadziei, że „skalowanie” — zwiększanie ilości danych i mocy obliczeniowej — przyniesie coraz bardziej zaawansowane możliwości sztucznej inteligencji. Na przykład Meta trenowała Llama 3 na zestawie 15 bilionów tokenów (gdzie 1 milion tokenów odpowiada około 750 tysiącom słów). Dla porównania, poprzednia generacja, Llama 2, była trenowana na „zaledwie” 2 bilionach tokenów.
Jednak dowody sugerują, że skalowanie w końcu przynosi coraz mniejsze korzyści. Firmy takie jak Anthropic i Google ostatnio trenowały ogromne modele, które nie spełniły oczekiwań wewnętrznych benchmarków.
Jak bardzo precyzyjne muszą być modele?
Czy zatem można zrobić coś, aby modele AI stały się mniej podatne na degradację? Okazuje się, że tak. Badania wykazały, że trenowanie modeli w „niskiej precyzji” może sprawić, że będą one bardziej odporne. „Precyzja” odnosi się tu do liczby cyfr, które mogą być dokładnie reprezentowane w danym typie danych. W większości przypadków, modele AI są trenowane z precyzją 16-bitową, a następnie kwantyzowane do precyzji 8-bitowej.
Niektóre firmy, takie jak Nvidia, rozwijają technologie, które wspierają jeszcze niższą precyzję przy kwantyzacji, np. precyzję 4-bitową. Ich najnowsze chipy, takie jak Blackwell, są zaprojektowane specjalnie z myślą o centrach danych o ograniczonych zasobach pamięci i mocy.
Jednakże, jak ostrzegają badacze, zbyt niska precyzja może prowadzić do zauważalnego spadku jakości modeli, chyba że oryginalny model jest wyjątkowo duży pod względem liczby parametrów.
Wnioski
Choć kwantyzacja jest niezwykle użytecznym narzędziem w optymalizacji modeli AI, jej możliwości są ograniczone. Modele sztucznej inteligencji są skomplikowane i wiele powszechnie stosowanych metod optymalizacji, które działają dobrze w innych dziedzinach obliczeń, nie zawsze sprawdza się w przypadku AI.
Najważniejsze, co można wynieść z badań, to fakt, że nie ma jednego prostego rozwiązania, które pozwoli bezkarnie zmniejszać koszty inferencji modeli. Jak zauważa Tanishq Kumar, jeden z autorów badania, „precyzja bitowa ma znaczenie i nie jest darmowa”. Próby zbyt dużego zmniejszania precyzji mogą prowadzić do pogorszenia wyników modeli.
W przyszłości kluczowe może okazać się bardziej precyzyjne dobieranie danych do trenowania modeli oraz rozwój nowych architektur, które będą stabilne przy trenowaniu w niskiej precyzji.