Nowy model ElevenLabs – Scribe – rewolucjonizuje transkrypcję mowy
ElevenLabs, startup specjalizujący się w technologii generowania dźwięku, postanowił rozszerzyć swoją działalność o rozpoznawanie mowy. Firma, której wartość wyceniana jest na 3,3 miliarda dolarów, wprowadziła na rynek pierwszy samodzielny model do przekształcania mowy na tekst – Scribe. Jest to istotny krok w rozwoju ElevenLabs, które dotąd znane było głównie z narzędzi do generowania głosu.
Rozszerzenie działalności na segment rozpoznawania mowy
Nowy model Scribe to odpowiedź na rosnące zapotrzebowanie na precyzyjne i wielojęzyczne systemy transkrypcji. Do tej pory ElevenLabs dostarczało bibliotekę głosową dla rozmaitych firm, ale teraz zamierza konkurować bezpośrednio z takimi gigantami, jak Gladia, Speechmatics, AssemblyAI, Deepgram czy OpenAI z ich modelem Whisper. Wprowadzenie Scribe oznacza, że firma chce mocniej zaznaczyć swoją obecność na rynku narzędzi do rozpoznawania mowy, oferując nowoczesne, zaawansowane rozwiązania wykorzystujące sztuczną inteligencję.
Obsługa ponad 99 języków i imponująca dokładność
Jednym z najważniejszych atutów nowego modelu jest jego wsparcie dla ponad 99 języków. Co więcej, według testów przeprowadzonych przez ElevenLabs, aż 25 języków osiąga niezwykle wysoką dokładność transkrypcji, z błędem poniżej 5%. W tej grupie znajdują się między innymi angielski (97% dokładności), francuski, niemiecki, polski, hiszpański, portugalski, hinduski, japoński i indonezyjski. Pozostałe języki zostały sklasyfikowane w kilku kategoriach precyzji – od wysokiej (błąd 5-10%) po umiarkowaną (25-50%).
Oficjalne testy wykazały, że Scribe przewyższa modele rozpoznawania mowy oferowane przez Google Gemini 2.0 Flash oraz Whisper Large V3. Benchmarki FLEURS i Common Voice potwierdziły wyższość rozwiązania od ElevenLabs pod względem rozpoznawania mowy w wielu językach, co czyni ten model jednym z najdokładniejszych i najbardziej wszechstronnych na rynku.
Inteligentne funkcje transkrypcji
Nowe narzędzie nie ogranicza się jedynie do klasycznego przekształcania mowy na tekst. ElevenLabs wprowadziło również funkcje, które znacząco poprawiają jakość analizy mowy. Model potrafi rozpoznawać, kto mówi, dzięki funkcji inteligentnej diarizacji mówców. Oprócz tego dodano oznaczanie dźwięków w tle, takich jak śmiech publiczności, co pozwala na bardziej dynamiczne odwzorowanie kontekstu rozmowy. Dodatkowo Scribe oferuje dokładne znaczniki czasowe dla każdego słowa, co czyni go doskonałym narzędziem do automatycznego generowania napisów.
Dla użytkowników, którzy chcą szybko transkrybować treści wideo, ElevenLabs udostępnia rozwiązanie pozwalające na automatyczne generowanie napisów i tłumaczeń tekstowych. Tego rodzaju funkcjonalność może znaleźć zastosowanie w branży medialnej, edukacyjnej i biznesowej, gdzie dokładność transkrypcji odgrywa kluczową rolę.
Bariery i przyszłe plany
Na ten moment Scribe obsługuje jedynie nagrania audio, co oznacza, że nie jest jeszcze przystosowany do transkrypcji w czasie rzeczywistym. Niemniej jednak firma zapowiada, że wkrótce wprowadzi wersję o niskim opóźnieniu, co umożliwi użycie modelu do takich zastosowań jak transkrypcja spotkań czy rejestrowanie notatek głosowych w czasie rzeczywistym. Rozwój w tym kierunku może otworzyć przed ElevenLabs nowe możliwości współpracy z aplikacjami konferencyjnymi i narzędziami do zarządzania pracą zespołową.
Konkurencyjna cena w dynamicznym rynku
ElevenLabs zdecydowało się na strategicznie atrakcyjny model cenowy – koszt transkrypcji jednej godziny nagrania wynosi jedynie 0,40 USD. To konkurencyjna stawka, chociaż niektóre firmy oferują niższe ceny, różnicując swoje usługi dodatkowymi funkcjami. Jednak wysoka jakość transkrypcji oraz wsparcie dla dziesiątek języków mogą sprawić, że Scribe stanie się jedną z najchętniej wybieranych technologii na rynku automatycznych transkrypcji.
Wprowadzenie Scribe to kolejny krok ElevenLabs w stronę stania się globalnym liderem w dziedzinie przetwarzania dźwięku. Jeśli firma będzie wciąż rozwijać swoje modele i wprowadzać kolejne ulepszenia, możemy spodziewać się jeszcze większego wpływu ElevenLabs na rynek technologii audio w nadchodzących latach.