W świecie tłumaczeń generatywna sztuczna inteligencja (AI) ma ogromny potencjał, a startup Panjaya przenosi ten koncept na zupełnie nowy poziom. Firma wprowadza innowacyjne narzędzie do dubbingu wideo, oparte na sztucznej inteligencji, które odtwarza oryginalny głos mówcy, mówiącego w nowym języku. Co więcej, ruchy ust i mimika osoby w wideo są automatycznie dostosowywane do nowych wzorców mowy, co daje niezwykle realistyczny efekt.
Nowatorska technologia BodyTalk
Po trzech latach pracy w trybie tajnym, Panjaya zaprezentowała światu pierwszy produkt o nazwie BodyTalk. Wraz z premierą narzędzia, firma ogłosiła także zebranie pierwszej rundy finansowania zewnętrznego, na kwotę 9,5 miliona dolarów.
Panjaya została założona przez Hilika Shaniego i Ariela Shaloma, dwóch specjalistów od głębokiego uczenia maszynowego, którzy wcześniej pracowali nad zaawansowanymi technologiami dla izraelskiego rządu. Obecnie Shani pełni funkcję dyrektora generalnego, a Shalom CTO. Do zespołu dołączył także Guy Piekarz jako CEO – postać znana z wcześniejszej sprzedaży swojego startupu Matcha firmie Apple w 2013 roku. Matcha koncentrowała się na odkrywaniu i rekomendacji treści wideo, a jej przejęcie miało miejsce na wczesnym etapie strategii Apple dotyczącej telewizji i streamingu.
Technologia, która zmienia zasady gry
BodyTalk łączy w sobie kilka technologii syntetycznych mediów, które współpracują, aby stworzyć w pełni zintegrowany produkt. Proces rozpoczyna się od tłumaczenia dźwiękowego, które obecnie obsługuje 29 języków. Następnie nowy głos imituje oryginalnego mówcę, a algorytmy modyfikują ruchy ust i inne elementy mowy ciała na wideo, tak aby idealnie dopasować je do nowo wygenerowanego dźwięku. Cały ten proces odbywa się automatycznie – użytkownik po prostu przesyła wideo na platformę, a narzędzie generuje gotowy produkt.
Jedną z przyszłych funkcji, nad którą startup pracuje, jest wprowadzenie API oraz przyspieszenie przetwarzania wideo do poziomu zbliżonego do czasu rzeczywistego. Obecnie, jak przyznaje Piekarz, BodyTalk potrzebuje kilku minut na przetworzenie materiału, co określane jest jako „niemal w czasie rzeczywistym”.
Własne modele AI i unikalne rozwiązania
Piekarz podkreśla, że Panjaya korzysta z najlepszych dostępnych na rynku modeli językowych, ale w niektórych obszarach tworzy własne modele AI. Przykładem jest technologia synchronizacji ruchu warg, która została stworzona przez wewnętrzny zespół badawczy AI firmy, ponieważ dostępne na rynku rozwiązania nie spełniały oczekiwań w zakresie jakości i wsparcia dla wielu mówców oraz różnych kątów kamery.
Na chwilę obecną BodyTalk koncentruje się na rynku B2B. Wśród klientów Panjaya znajdują się między innymi JFrog oraz organizacja medialna TED, a firma planuje dalszą ekspansję na rynki medialne, zwłaszcza w obszarach takich jak sport, edukacja, marketing, opieka zdrowotna i medycyna.
Etyczne zarządzanie technologią
Wynikowe tłumaczenia wideo stworzone przy użyciu BodyTalk są niezwykle realistyczne, co budzi pewne skojarzenia z technologią deepfake. Jednak Piekarz z wyraźnym dystansem odnosi się do tego terminu, który nabrał negatywnych konotacji w kontekście manipulacji i fałszywych informacji. Zamiast tego Panjaya definiuje swoją technologię jako część kategorii „deep real”, podkreślając, że ich celem jest tworzenie autentycznych treści, a nie manipulacja.
Dzięki skupieniu się na rynku B2B firma ma większą kontrolę nad tym, kto ma dostęp do jej technologii, co stanowi swego rodzaju „zabezpieczenie” przed jej niewłaściwym wykorzystaniem. W przyszłości Panjaya planuje wprowadzić dodatkowe mechanizmy, takie jak znakowanie wodne, które pomoże w identyfikacji, kiedy wideo zostało zmodyfikowane w celu stworzenia syntetycznych treści, zarówno legalnych, jak i nielegalnych. „Chcemy być częścią rozwiązań zapobiegających dezinformacji” – podkreśla Piekarz.
Wyzwania na rynku AI
Na rynku istnieje już kilka startupów konkurujących z Panjaya w dziedzinie tłumaczeń wideo opartych na AI. Wśród większych graczy znajdują się Vimeo i Eleven Labs, a także mniejsze firmy, takie jak Speechify i Synthesis. Mimo to, rozwój skutecznych narzędzi do dubbingowania treści wideo może być trudnym zadaniem, ponieważ napisy stały się standardem w konsumpcji wideo.
Osoby oglądające telewizję często korzystają z napisów z różnych powodów: niska jakość dźwięku, hałas w tle czy też specyficzny sposób mówienia aktorów. Badania pokazują, że ponad połowa widzów w USA regularnie włącza napisy podczas oglądania telewizji. Na platformach społecznościowych, takich jak TikTok, napisy stały się domyślną opcją od listopada 2023 roku.
Potencjał na rynku międzynarodowym
Mimo popularności napisów, istnieje ogromny międzynarodowy rynek na dubbingowane treści. Badania wskazują, że treści dostarczane w językach ojczystych mają wyższy poziom zaangażowania, zwłaszcza w kontekście B2B. Panjaya wierzy, że bardziej naturalne formy komunikacji w językach ojczystych mogą przynieść jeszcze lepsze wyniki.
Firma TED, która korzysta z narzędzi Panjaya, odnotowała wzrost liczby wyświetleń o 115% dla treści dubbingowanych przez BodyTalk, a współczynnik ukończenia oglądania tych filmów się podwoił, co dodatkowo potwierdza skuteczność tego rozwiązania.
Technologia Panjaya, choć wysoce zaawansowana i innowacyjna, ma przed sobą sporo wyzwań, ale jednocześnie ogromny potencjał do rozwinięcia rynku tłumaczeń wideo na całym świecie.