Pruna AI – Nowa Era Kompresji Modeli Sztucznej Inteligencji
Pruna AI, europejski startup specjalizujący się w kompresji modeli sztucznej inteligencji, ogłosił udostępnienie swojego innowacyjnego frameworka jako rozwiązanie open source. Dzięki temu deweloperzy na całym świecie mogą korzystać z technologii optymalizującej modele AI, zwiększając ich wydajność, jednocześnie minimalizując utratę jakości.
Nowe podejście do optymalizacji modeli AI
Framework opracowany przez Pruna AI integruje szereg technik poprawiających efektywność modeli sztucznej inteligencji. Wśród nich znajdują się metody takie jak cache’owanie, redukcja zbędnych połączeń w neuronach (pruning), kwantyzacja oraz destylacja. Dzięki ich zastosowaniu możliwe jest znaczące zmniejszenie rozmiaru modeli AI, co z kolei prowadzi do skrócenia czasu ich działania i obniżenia kosztów obliczeniowych.
Jak wyjaśnia John Rachwan, współzałożyciel i CTO Pruna AI, platforma nie tylko dostarcza podstawowe techniki kompresji, ale także ujednolica proces zapisu i ładowania zoptymalizowanych modeli. Co więcej, umożliwia automatyczną ocenę skompresowanych modeli pod kątem utraty jakości w stosunku do oryginału oraz korzyści wydajnościowych wynikających z optymalizacji.
Standardyzacja na wzór Hugging Face
Pruna AI wprowadza swoje narzędzie jako uniwersalny standard dla metod optymalizacyjnych modeli AI. Rachwan porównuje inicjatywę firmy do tego, co Hugging Face osiągnęło w zakresie ustandaryzowanych bibliotek dla transformatorów i dyfuzorów. Dzięki Pruna AI deweloperzy zyskują ujednolicony sposób obsługi technik kompresji, co wcześniej było dostępne jedynie poprzez pojedyncze, często niekompatybilne rozwiązania open source.
Wiodące laboratoria AI od dawna stosują różne formy optymalizacji modeli. OpenAI wykorzystuje technikę destylacji do przyspieszania działania swoich flagowych modeli, a podejście to można dostrzec w wersji GPT-4 Turbo. Z kolei model generowania obrazów Flux.1-schnell jest zoptymalizowaną wersją Flux.1 stworzoną przez Black Forest Labs.
Technika destylacji polega na nauce mniejszego modelu („uczeń”) na podstawie odpowiedzi generowanych przez model większy („nauczyciel”). Proces ten pozwala na zachowanie wysokiej jakości predykcji przy jednoczesnym zmniejszeniu zasobów wymaganych do działania modelu.
Pruna AI – narzędzie dla wszystkich
Pruna AI wyróżnia się na tle innych rozwiązań swoją wszechstronnością i dostępnością. W przeciwieństwie do dużych firm, które zazwyczaj opracowują własne, zamknięte rozwiązania w zakresie kompresji modeli, framework Pruna oferuje otwartą platformę, w której można łączyć różne metody optymalizacyjne w łatwy i intuicyjny sposób.
Platforma obsługuje różnorodne modele AI, od zaawansowanych modeli językowych (LLM), przez modele generujące obrazy i wideo, po rozwiązania przetwarzania mowy na tekst czy modele do analizy obrazu. Obecnie firma koncentruje się głównie na optymalizacji modeli generujących grafiki i wideo, co wynika z rosnącego zapotrzebowania na efektywność w tych sektorach.
Wśród użytkowników Pruna AI znajdują się między innymi Scenario oraz PhotoRoom – firmy specjalizujące się w przetwarzaniu i generowaniu obrazów.
Automatyczna kompresja modeli
Jednym z najbardziej innowacyjnych rozwiązań, które wkrótce trafią do użytkowników, jest agent kompresji. Jak wyjaśnia Rachwan, użytkownik będzie mógł po prostu przekazać model AI do optymalizacji wraz z określonymi wymaganiami, takimi jak „zwiększenie szybkości działania, ale z maksymalną dopuszczalną utratą dokładności na poziomie 2%”. Narzędzie samo znajdzie optymalną kombinację metod kompresji i przedstawi gotowy do użytku model. Z perspektywy programisty oznacza to ogromne oszczędności czasu i eliminację potrzeby ręcznego eksperymentowania z różnymi strategiami optymalizacji.
Model biznesowy Pruna AI
Pruna AI oferuje dwie wersje swojej technologii: otwartą edycję dostępną dla wszystkich oraz wersję dla klientów korporacyjnych, która obejmuje dodatkowe funkcje, w tym wspomnianego wcześniej agenta optymalizacyjnego. Profesjonalna wersja rozwiązania jest dostępna w modelu rozliczeniowym opartym na godzinach użytkowania, co przypomina sposób wynajmu jednostek GPU w usługach chmurowych, takich jak AWS.
Korzyści finansowe wynikające z zastosowania narzędzi Pruna AI mogą być ogromne, zwłaszcza dla firm opierających swoją działalność na dużych modelach AI. Na przykład dzięki Pruna AI udało się zoptymalizować model Llama, zmniejszając jego rozmiar ośmiokrotnie, przy minimalnej utracie jakości. Deweloperzy mogą więc potraktować ten framework jako inwestycję, która szybko się zwraca poprzez mniejsze zużycie energii i niższe koszty operacyjne.
Przyszłość Pruna AI
Startup niedawno zabezpieczył finansowanie w wysokości 6,5 miliona dolarów od funduszy inwestycyjnych, takich jak EQT Ventures, Daphni, Motier Ventures oraz Kima Ventures. Dzięki tym środkom Pruna AI planuje rozszerzyć swoje technologie i zwiększyć skalę wdrożeń.
Otwarte podejście do optymalizacji modeli AI może być przełomowe dla całej branży. Deweloperzy, niezależnie od budżetu i zaplecza technologicznego, zyskują teraz dostęp do narzędzia, które wcześniej było domeną jedynie największych korporacji. W obliczu rosnących wymagań względem wydajności i kosztów działania sztucznej inteligencji, Pruna AI może stać się jednym z kluczowych graczy na rynku optymalizacji modeli AI.