Stability AI zaprezentowało światu nowy, kompaktowy model sztucznej inteligencji do generowania dźwięku – Stable Audio Open Small. To wyjątkowe rozwiązanie nie tylko przewyższa konkurencję pod względem szybkości działania, ale również zostało zaprojektowane z myślą o pracy na urządzeniach mobilnych, takich jak smartfony czy tablety. Dzięki współpracy ze znanym producentem chipów Arm, technologia ta weszła na nowy poziom dostępności – nie wymaga połączenia z chmurą, co otwiera przed użytkownikami zupełnie nowe możliwości wykorzystania AI offline.
Stable Audio Open Small jest czymś więcej niż tylko kolejnym narzędziem do tworzenia muzyki. Stanowi symbol przełomu w projektowaniu lekkich i efektywnych modeli AI do generowania dźwięku. Model ten został wytrenowany wyłącznie na darmowych, pozbawionych praw autorskich zasobach audio pochodzących z platform Free Music Archive i Freesound. To istotna informacja, szczególnie w świetle niedawnych kontrowersji wokół konkurencyjnych rozwiązań takich jak Suno czy Udio, których modele korzystają podobno z chronionych prawem autorskim materiałów, co budzi poważne wątpliwości natury prawnej.
Pod względem technicznym Stable Audio Open Small składa się z 341 milionów parametrów, co czyni go jednym z najbardziej kompaktowych modeli generujących dźwięk na rynku. Został zoptymalizowany specjalnie pod kątem procesorów Arm, które są powszechnie stosowane w urządzeniach mobilnych. Dzięki temu użytkownicy mogą szybko i lokalnie generować krótkie próbki dźwiękowe, efekty specjalne czy pętle perkusyjne. Według danych udostępnionych przez Stability AI, model ten potrafi wygenerować do 11 sekund audio w czasie krótszym niż 8 sekund – wszystko bez potrzeby łączenia się z serwerami zewnętrznymi.
Warto jednak mieć na uwadze ograniczenia technologii. Model aktualnie interpretuje jedynie anglojęzyczne polecenia tekstowe i nie jest w stanie wygenerować realistycznych wokali czy utworów o wysokiej jakości dźwięku. Ponadto, ze względu na ukierunkowanie danych treningowych, można zaobserwować nierówności w odwzorowaniu różnych stylów muzycznych – lepiej radzi sobie z muzyką opartą na zachodnich standardach niż z gatunkami z innych kultur czy tradycji.
Użytkownicy zainteresowani wykorzystaniem modelu powinni również zapoznać się ze specyfiką licencyjną. Model jest dostępny bezpłatnie dla naukowców, pasjonatów oraz firm, których roczny dochód nie przekracza jednego miliona dolarów. W przypadku większych przedsiębiorstw konieczne jest jednak wykupienie licencji komercyjnej typu enterprise, co może stanowić przeszkodę dla szerokiego wdrożenia modelu w większych projektach komercyjnych.
Wszystko to dzieje się na tle burzliwych wydarzeń w samej firmie Stability AI. Przedsiębiorstwo, które zdobyło rozgłos dzięki modelowi do generowania obrazów Stable Diffusion, przeszło ostatnio poważne zmiany. Po problemach z zarządzaniem i utracie zaufania inwestorów, firma pozyskała nowy kapitał oraz powołała nowego CEO. Do zarządu dołączył również znany reżyser James Cameron, co może zwiastować nową, bardziej filmową i kreatywną wizję rozwoju. Dodatkowo, Stability zdążyło już zaprezentować światu kolejne modele generujące obrazy, próbując odbudować swoją pozycję na rynku sztucznej inteligencji.
Stable Audio Open Small to dowód na to, że AI może być nie tylko potężna, ale i mobilna. To narzędzie, które w rękach kreatywnych twórców może zrewolucjonizować sposób, w jaki komponowana i produkowana jest muzyka – szczególnie w świecie mobilnym i „na żywo”. Czy to przełom? Niewykluczone, że tak – szczególnie dla osób, które cenią sobie wolność twórczą poza chmurą i niezależność od infrastruktury IT.