Nowa rodzina modeli Stable Diffusion 3.5 – bardziej personalizowalne i wydajne generowanie obrazów
Stability AI, znane startupy z branży sztucznej inteligencji, po serii kontrowersji związanych z problemami technicznymi oraz zmianami w licencjonowaniu, ogłasza premierę swojej najnowszej rodziny modeli generowania obrazów – Stable Diffusion 3.5. Nowa seria, według zapewnień firmy, oferuje większą wszechstronność, personalizację oraz znaczną poprawę wydajności w porównaniu do poprzednich wersji.
Nowe modele w rodzinie Stable Diffusion 3.5
Rodzina Stable Diffusion 3.5 składa się z trzech modeli, które różnią się między sobą liczbą parametrów oraz przeznaczoną wydajnością. Parametry w modelach AI można porównać do zdolności rozwiązywania problemów – im więcej parametrów, tym lepsza i bardziej zaawansowana wydajność modelu.
1. Stable Diffusion 3.5 Large: Najmocniejszy model z 8 miliardami parametrów, potrafiący generować obrazy w rozdzielczości do 1 megapiksela.
2. Stable Diffusion 3.5 Large Turbo: Szybsza, choć nieco mniej dokładna wersja modelu Large, stworzona z myślą o krótszym czasie generowania obrazów kosztem jakości.
3. Stable Diffusion 3.5 Medium: Model zoptymalizowany pod kątem urządzeń przenośnych, takich jak smartfony i laptopy, umożliwiający generowanie obrazów w rozdzielczościach od 0.25 do 2 megapikseli. Model ten trafi do użytkowników dopiero 29 października.
Większa różnorodność i uproszczone prompty
Jednym z głównych celów przy wprowadzeniu nowych modeli była większa różnorodność generowanych obrazów, w tym zdolność do tworzenia osób o różnych tonach skóry i cechach fizycznych, bez potrzeby szczegółowego podawania wskazówek w promptach. Jak zauważył Hanno Basse, CTO Stability AI, każdy obraz podczas treningu modelu otrzymał kilka różnych wersji promptów, co pozwala na szersze zrozumienie koncepcji graficznych z tych samych opisów tekstowych. Modele były trenowane na szerokiej gamie danych, w tym publicznie dostępnych zbiorach oraz danych syntetycznych.
Wyzwania z poprzednią generacją i nowe podejście
Poprzednia wersja modelu – Stable Diffusion 3 Medium, spotkała się z krytyką za specyficzne artefakty oraz niezgodność z podanymi promptami. Choć Stability przestrzega, że nowe modele mogą mieć podobne problemy, firma jednocześnie zapewnia, że modele 3.5 są znacznie bardziej wszechstronne i precyzyjne. Nowy algorytm został zaprojektowany z myślą o generowaniu obrazów w różnych stylach, w tym 3D.
Jednym z ciekawszych aspektów jest większa zmienność wyników przy generowaniu obrazów z tego samego promptu, co według Stability AI jest zabiegiem celowym, mającym na celu zachowanie szerokiego zasobu wiedzy i różnorodnych stylów w podstawowych modelach.
Licencjonowanie i użytkowanie komercyjne
Podobnie jak w przypadku wcześniejszych modeli Stability AI, modele z serii Stable Diffusion 3.5 są dostępne do niekomercyjnego użytku, w tym do badań. Firmy z rocznym przychodem poniżej 1 miliona dolarów mogą także korzystać z modeli do celów komercyjnych za darmo. Natomiast organizacje o wyższych przychodach będą musiały uzyskać licencję korporacyjną od Stability AI.
Warto przypomnieć, że Stability AI wywołało kontrowersje w lecie 2023 roku, kiedy to wprowadzało bardziej restrykcyjne zasady dotyczące dostosowywania modeli, co mogło sugerować możliwość naliczania dodatkowych opłat za modele trenowane na obrazach pochodzących z ich generatorów. Firma szybko zareagowała na krytykę, zmieniając zasady, aby umożliwić bardziej liberalne korzystanie komercyjne, potwierdzając, że użytkownicy posiadają prawa do generowanych przez siebie treści.
Platformy i dostępność modeli
Modele Stable Diffusion 3.5 Large i 3.5 Large Turbo są już dostępne do samodzielnego hostowania, a także poprzez API Stability oraz na platformach takich jak Hugging Face, Fireworks, Replicate i ComfyUI. Stability AI ogłosiło także, że planuje wprowadzenie funkcji ControlNets dla modeli, które umożliwią ich precyzyjne dostrajanie, co ma zostać udostępnione w ciągu kilku dni.
Prawa autorskie i kwestie prawne
Jak większość modeli AI, Stable Diffusion 3.5 został przeszkolony na danych publicznie dostępnych w sieci, w tym na materiałach, które mogą być chronione prawami autorskimi. Stability AI argumentuje, że doktryna „fair use” chroni ich przed roszczeniami związanymi z prawami autorskimi, jednakże nie powstrzymało to niektórych właścicieli danych przed wnoszeniem pozwów zbiorowych. Firma umożliwia także właścicielom danych zgłaszanie próśb o usunięcie ich treści z zestawów danych treningowych – według Stability AI, do marca 2023 roku, artyści usunęli 80 milionów obrazów z procesu treningowego.
Bezpieczeństwo a dezinformacja
W kontekście zbliżających się wyborów w Stanach Zjednoczonych, Stability AI podkreśla, że firma podejmuje „rozsądne kroki”, aby zapobiec wykorzystywaniu Stable Diffusion do tworzenia dezinformacji, choć firma nie podaje szczegółowych rozwiązań technicznych. Stability AI obecnie zabrania jedynie tworzenia treści jawnie wprowadzających w błąd, ale nie blokuje treści, które mogłyby wpływać na proces wyborczy lub prezentować polityków i postaci publiczne.
Podsumowanie
Nowa seria Stable Diffusion 3.5 z pewnością przynosi kilka istotnych innowacji, zarówno pod względem technologicznym, jak i licencyjnym. Choć nie obyło się bez wyzwań i kontrowersji, Stability AI stara się dostosowywać do potrzeb użytkowników i rynku. Dzięki nowym modelom, twórcy będą mieli jeszcze większą swobodę w generowaniu różnorodnych stylów graficznych, co z pewnością będzie miało swoje odbicie w komercyjnym i artystycznym wykorzystaniu tej technologii.