Organizacja non-profit MLCommons oraz platforma rozwoju sztucznej inteligencji Hugging Face ogłosiły wspólną inicjatywę, mającą na celu udostępnienie jednego z największych na świecie zbiorów nagrań głosowych dostępnych do celów badawczych w obszarze sztucznej inteligencji.
Nowy zestaw danych, nazwany Unsupervised People’s Speech, zawiera ponad milion godzin nagrań głosowych w co najmniej 89 językach. Inicjatorzy projektu podkreślają, że jego celem jest wspieranie badań i rozwoju technologii przetwarzania mowy, co ma przynieść korzyści użytkownikom na całym świecie.
„Wsparcie dla badań nad przetwarzaniem języka naturalnego w językach innych niż angielski pozwoli na lepsze dostosowanie technologii komunikacyjnych do potrzeb ludzi na całym świecie” – podkreślono w jednym z opublikowanych wpisów. Organizacja wyraziła nadzieję, że zestaw danych znajdzie zastosowanie w rozwijaniu modeli mowy dla języków zasobowo ubogich, ulepszaniu rozpoznawania mowy z różnych akcentów i dialektów, jak również w opracowywaniu nowatorskich zastosowań w syntezie mowy.
Choć założenia projektu brzmią ambitnie, pojawiają się również obawy i wyzwania związane z wykorzystaniem tego typu zestawów danych w badaniach AI.
Problemy związane z jakością danych
Jednym z wyzwań jest potencjalna stronniczość w danych. Nagrania, które znalazły się w zestawie Unsupervised People’s Speech, pochodzą głównie z platformy Archive.org, znanej m.in. z narzędzia Wayback Machine. Ze względu na to, że większość treści na Archive.org jest tworzona przez użytkowników mówiących po angielsku, a szczególnie z akcentem amerykańskim, takie nagrania przeważają w zestawie. Jak wskazano na stronie projektu, może to prowadzić do ograniczeń w efektywności systemów AI, które będą oparte na tym zbiorze.
Tego rodzaju stronniczość może powodować, że modele rozpoznawania mowy lub syntezatory głosu będą miały trudności z transkrypcją mowy osób niebędących rodzimymi użytkownikami języka angielskiego, jak również z prawidłowym działaniem w innych językach. W efekcie technologie bazujące na tych zestawach danych mogą być mniej dostępne dla części użytkowników, co podważa ich globalne aspiracje.
Kwestie etyczne i ochrona twórców
Innym problemem jest pytanie o zgodę osób, których głosy zostały użyte. Chociaż MLCommons zapewnia, że wszystkie nagrania wchodzące w skład Unsupervised People’s Speech należą do domeny publicznej lub są dostępne na licencjach Creative Commons, nie można wykluczyć, że popełniono błędy przy ich selekcji.
Jak wynika z analizy opublikowanej przez MIT, setki publicznie dostępnych zbiorów danych wykorzystywanych do trenowania modeli AI zawierają błędy lub są obarczone brakiem przejrzystości dotyczącej praw autorskich. W przypadku takich projektów pojawia się pytanie, czy twórcy powinni być zmuszeni aktywnie rezygnować z wykorzystywania ich pracy w datasetach, skoro proces ten może być zbyt trudny, zawiły i czasochłonny. Ed Newton-Rex, dyrektor generalny organizacji non-profit Fairly Trained, zwrócił uwagę na to, że obecne mechanizmy „opt-out” są skomplikowane i niesatysfakcjonujące, co stawia twórców w niekorzystnej sytuacji.
Dalsze kroki i rozwiązania
MLCommons deklaruje, że będzie kontynuować pracę nad aktualizacją, ulepszaniem oraz poprawianiem jakości zestawu danych Unsupervised People’s Speech. Jednak zanim modele AI oparte na tym zbiorze znajdą szersze zastosowanie, programiści powinni zachować szczególną ostrożność podczas ich wykorzystywania.
Wdrożenie rygorystycznych procesów filtrowania danych, zrozumienie ich ograniczeń oraz bardziej transparentne podejście do zarządzania prawami autorskimi mogą być kluczowe dla zapewnienia uczciwości i efektywności tych narzędzi. Jednocześnie warto zastanowić się nad wprowadzeniem bardziej przyjaznych metod ochrony praw twórców, co pozwoliłoby na budowanie bardziej etycznych i globalnie dostępnych technologii opartych na sztucznej inteligencji.