Nowy model sztucznej inteligencji od Sesame
Firma technologiczna Sesame zaprezentowała swój najnowszy model sztucznej inteligencji, który napędza niezwykle realistycznego asystenta głosowego o nazwie Maya. Ten zaawansowany system pozwala na generowanie mowy w sposób, który coraz bardziej zbliża się do naturalnej komunikacji między ludźmi.
Nowy model, oznaczony jako CSM-1B, składa się z miliarda parametrów, które odpowiadają za jego działanie. Jest on dostępny na licencji Apache 2.0, co oznacza, że może być wykorzystywany również w celach komercyjnych bez większych ograniczeń. Według opisu firmy Sesame, model ten przekształca dane tekstowe i dźwiękowe w specjalne kody audio RVQ.
Technologia stojąca za CSM-1B
Kody RVQ, czyli residual vector quantization, to technika kodowania dźwięku w formie dyskretnych tokenów. Metoda ta jest stosowana w wielu nowoczesnych technologiach AI do obróbki dźwięku, takich jak Google SoundStream czy Meta Encodec.
CSM-1B bazuje na jednym z modeli z rodziny Llama, opracowanej przez firmę Meta. Dodatkowo został on zintegrowany z modułem dekodującym dźwięk, co pozwala na zaawansowaną interpretację i generowanie mowy. Jak twierdzą twórcy ze Sesame, specjalnie dostosowana wersja CSM właśnie napędza asystenta Maya.
Model dostępny dla każdego
Opublikowany przez Sesame model to tzw. baza generacyjna – nie został on dostrojony pod kątem generowania konkretnych głosów, ale jest w stanie tworzyć różne warianty mowy. Według firmy model ma także pewne możliwości pracy z językami innymi niż angielski, ale nie zostały one specjalnie zoptymalizowane.
Nie wiadomo dokładnie, jakie dane zostały wykorzystane do trenowania modelu CSM-1B. Firma Sesame nie ujawnia szczegółowych informacji na ten temat, co może rodzić pewne wątpliwości co do zakresu i etyki użytych zbiorów danych.
Brak zabezpieczeń budzi obawy
Jednym z głównych problemów związanych z tym modelem jest brak istotnych zabezpieczeń przed potencjalnym nadużyciem. Sesame jedynie apeluje do użytkowników i programistów o odpowiedzialne korzystanie z technologii. W regulaminie podkreślono, że model nie powinien być wykorzystywany do imitowania głosu bez zgody danej osoby, rozpowszechniania fałszywych treści czy tworzenia szkodliwego lub wprowadzającego w błąd materiału.
Testy modelu wskazują, że klonowanie głosów trwa zaledwie kilka sekund, co może powodować poważne zagrożenia związane m.in. z oszustwami telefonicznymi czy szerzeniem dezinformacji. Consumer Reports już wcześniej zwracało uwagę na to, że wiele dostępnych narzędzi do klonowania głosu nie posiada odpowiednich mechanizmów zapobiegających nadużyciom.
Asystenci, którzy brzmią jak ludzie
Sesame zyskało popularność na początku roku, kiedy zaprezentowało technologię, której jakość brzmienia niemal całkowicie eliminuje efekt tzw. doliny niesamowitości. Ich asystenci głosowi, Maya i Miles, potrafią nie tylko modulować głos w sposób naturalny, ale także wprowadzać pauzy, robić wdechy oraz przerywać wypowiedzi w sposób identyczny, jak robią to żywi rozmówcy.
Podobne rozwiązanie rozwija OpenAI w ramach swojego trybu głosowego, ale to właśnie Sesame zdaje się być liderem w tej dziedzinie.
Plany rozwoju i inwestycje
Sesame to firma założona przez współtwórcę Oculusa, Brendana Iribe. Dzięki wsparciu finansowemu od inwestorów takich jak Andreessen Horowitz, Spark Capital i Matrix Partners, firma nie tylko doskonali swoje algorytmy asystentów głosowych, ale również pracuje nad inteligentnymi okularami AI. Według zapowiedzi, urządzenie to ma być zaprojektowane w taki sposób, aby można było je nosić przez cały dzień i korzystać z zaawansowanych funkcji wspieranych przez modele sztucznej inteligencji Sesame.
Obecnie pozostaje jednak pytanie, jak firma zamierza zabezpieczyć swoje technologie przed potencjalnym wykorzystaniem do celów niezgodnych z etyką i prawem. W obliczu rosnących możliwości generowania syntetycznego głosu, potrzebne są wyraźne regulacje i mechanizmy, które zapobiegną nadużyciom.