Apple Planet
  • REDAKCJA
  • WSPÓŁPRACA
  • POLITYKA PRYWATNOŚCI
No Result
View All Result
  • Apple
  • Sztuczna inteligencja AI
  • Smartfony
  • Nauka i technika
  • Komputery & Tablety
  • Security
  • Nowinki
    • Recenzje
    • Poradniki
    • iDared Serwis
      • Serwis iPhone
      • Serwis MacBook
      • Serwis Telefonów Samsung
      • Serwis Telefonów Xiaomi
wtorek, 3 czerwca, 2025
  • Apple
  • Sztuczna inteligencja AI
  • Smartfony
  • Nauka i technika
  • Komputery & Tablety
  • Security
  • Nowinki
    • Recenzje
    • Poradniki
    • iDared Serwis
      • Serwis iPhone
      • Serwis MacBook
      • Serwis Telefonów Samsung
      • Serwis Telefonów Xiaomi
No Result
View All Result
Apple Planet
No Result
View All Result
Home Sztuczna inteligencja AI

MLCommons i Hugging Face łączą siły, udostępniając ogromny zbiór danych mowy do badań nad sztuczną inteligencją

od Pan z ApplePlanet
5 lutego, 2025
w Sztuczna inteligencja AI
0
MLCommons i Hugging Face łączą siły, udostępniając ogromny zbiór danych mowy do badań nad sztuczną inteligencją
478
SHARES
1.5k
VIEWS
Udostępnij na FacebookuUdostępnij na Tweeterze

Organizacja non-profit MLCommons oraz platforma rozwoju sztucznej inteligencji Hugging Face ogłosiły wspólną inicjatywę, mającą na celu udostępnienie jednego z największych na świecie zbiorów nagrań głosowych dostępnych do celów badawczych w obszarze sztucznej inteligencji.

Nowy zestaw danych, nazwany Unsupervised People’s Speech, zawiera ponad milion godzin nagrań głosowych w co najmniej 89 językach. Inicjatorzy projektu podkreślają, że jego celem jest wspieranie badań i rozwoju technologii przetwarzania mowy, co ma przynieść korzyści użytkownikom na całym świecie.

„Wsparcie dla badań nad przetwarzaniem języka naturalnego w językach innych niż angielski pozwoli na lepsze dostosowanie technologii komunikacyjnych do potrzeb ludzi na całym świecie” – podkreślono w jednym z opublikowanych wpisów. Organizacja wyraziła nadzieję, że zestaw danych znajdzie zastosowanie w rozwijaniu modeli mowy dla języków zasobowo ubogich, ulepszaniu rozpoznawania mowy z różnych akcentów i dialektów, jak również w opracowywaniu nowatorskich zastosowań w syntezie mowy.

Choć założenia projektu brzmią ambitnie, pojawiają się również obawy i wyzwania związane z wykorzystaniem tego typu zestawów danych w badaniach AI.

Problemy związane z jakością danych

Jednym z wyzwań jest potencjalna stronniczość w danych. Nagrania, które znalazły się w zestawie Unsupervised People’s Speech, pochodzą głównie z platformy Archive.org, znanej m.in. z narzędzia Wayback Machine. Ze względu na to, że większość treści na Archive.org jest tworzona przez użytkowników mówiących po angielsku, a szczególnie z akcentem amerykańskim, takie nagrania przeważają w zestawie. Jak wskazano na stronie projektu, może to prowadzić do ograniczeń w efektywności systemów AI, które będą oparte na tym zbiorze.

Tego rodzaju stronniczość może powodować, że modele rozpoznawania mowy lub syntezatory głosu będą miały trudności z transkrypcją mowy osób niebędących rodzimymi użytkownikami języka angielskiego, jak również z prawidłowym działaniem w innych językach. W efekcie technologie bazujące na tych zestawach danych mogą być mniej dostępne dla części użytkowników, co podważa ich globalne aspiracje.

Kwestie etyczne i ochrona twórców

Innym problemem jest pytanie o zgodę osób, których głosy zostały użyte. Chociaż MLCommons zapewnia, że wszystkie nagrania wchodzące w skład Unsupervised People’s Speech należą do domeny publicznej lub są dostępne na licencjach Creative Commons, nie można wykluczyć, że popełniono błędy przy ich selekcji.

Jak wynika z analizy opublikowanej przez MIT, setki publicznie dostępnych zbiorów danych wykorzystywanych do trenowania modeli AI zawierają błędy lub są obarczone brakiem przejrzystości dotyczącej praw autorskich. W przypadku takich projektów pojawia się pytanie, czy twórcy powinni być zmuszeni aktywnie rezygnować z wykorzystywania ich pracy w datasetach, skoro proces ten może być zbyt trudny, zawiły i czasochłonny. Ed Newton-Rex, dyrektor generalny organizacji non-profit Fairly Trained, zwrócił uwagę na to, że obecne mechanizmy „opt-out” są skomplikowane i niesatysfakcjonujące, co stawia twórców w niekorzystnej sytuacji.

Dalsze kroki i rozwiązania

MLCommons deklaruje, że będzie kontynuować pracę nad aktualizacją, ulepszaniem oraz poprawianiem jakości zestawu danych Unsupervised People’s Speech. Jednak zanim modele AI oparte na tym zbiorze znajdą szersze zastosowanie, programiści powinni zachować szczególną ostrożność podczas ich wykorzystywania.

Wdrożenie rygorystycznych procesów filtrowania danych, zrozumienie ich ograniczeń oraz bardziej transparentne podejście do zarządzania prawami autorskimi mogą być kluczowe dla zapewnienia uczciwości i efektywności tych narzędzi. Jednocześnie warto zastanowić się nad wprowadzeniem bardziej przyjaznych metod ochrony praw twórców, co pozwoliłoby na budowanie bardziej etycznych i globalnie dostępnych technologii opartych na sztucznej inteligencji.

Share191Tweet120
Poprzedni artykuł

DeepSeek: Oddzielenie faktów od marketingowej otoczki

Następny artykuł

Przewodnik architekta po zrozumieniu agentowej sztucznej inteligencji

Następny artykuł
Przewodnik architekta po zrozumieniu agentowej sztucznej inteligencji

Przewodnik architekta po zrozumieniu agentowej sztucznej inteligencji

Zapraszamy

Polub nas i bądź na bieżąco

Ostatnie Wpisy

  • Apple szykuje inteligentne okulary z AI – premiera planowana na 2026 rok 26 maja, 2025
  • Apple rezygnuje z planów wprowadzenia Apple Watcha z kamerą 26 maja, 2025
  • Apple planuje wielką modernizację aplikacji Kalendarz 26 maja, 2025
  • Tłumaczenie w czasie rzeczywistym w Google Meet ułatwia komunikację bez barier językowych 26 maja, 2025
  • Nowe funkcje Gmaila ułatwiają inteligentne odpowiadanie i szybkie planowanie wiadomości 26 maja, 2025

Informacje

  • Polityka prywatności
  • Redakcja
  • Współpraca
  • REDAKCJA
  • WSPÓŁPRACA
  • POLITYKA PRYWATNOŚCI

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Apple
  • Sztuczna inteligencja AI
  • Smartfony
  • Nauka i technika
  • Komputery & Tablety
  • Security
  • Nowinki
    • Recenzje
    • Poradniki
    • iDared Serwis
      • Serwis iPhone
      • Serwis MacBook
      • Serwis Telefonów Samsung
      • Serwis Telefonów Xiaomi