Pięć praktycznych zbiorów danych do trenowania modeli AI opartych na analizie wielomodalnej

Flickr30K Entities to rozszerzenie popularnego zestawu Flickr30K, który zawiera ponad 31 000 obrazów z platformy Flickr. Każdy obraz posiada pięć opisów na podstawie crowd-source, a nowa wersja dodaje 244 000 łańcuchów koreferencyjnych oraz oznaczenia ramkowe dla obiektów obecnych na zdjęciach.

Zastosowania: Generowanie opisów obrazów w czasie rzeczywistym, wyszukiwanie obrazów.

Licencja: Użytkowanie zgodne z zasadami platformy Flickr do celów badawczych i edukacyjnych.

Przykłady z zestawu danych Flickr30K Entities.

2. InternVid

InternVid to nowoczesny zestaw danych przeznaczony do analizy wideo, zawierający ponad 7 milionów wideo o łącznym czasie trwania około 760 000 godzin. Klipy wideo, których jest aż 234 miliony, są powiązane z bogatymi opisami, składającymi się w sumie z ponad 4,1 miliarda słów.

Zastosowania: Tworzenie chatbotów wideo, personalizowana edukacja online.

Licencja: Licencja Apache 2.0.

3. MuSe-CaR (Multimodal Sentiment Analysis in Car Reviews)

Zestaw MuSe-CaR skupia się na analizie emocji w kontekście recenzji wideo, dostarczając ponad 40 godzin materiału wideo z bogatymi adnotacjami. Dane te pokazują elementy emocjonalne, takie jak mimika, gesty czy intonacja głosu.

Zastosowania: Chatboty do diagnozy zdrowia psychicznego, automatyczny system analizy zadowolenia klientów.

Licencja: Do użytku niekomercyjnego zgodnie z licencją EULA.

Przykłady z zestawu danych MuSe-CaR.

4. MovieQA

MovieQA to multimodalny zestaw pytań i odpowiedzi związany z fabułą filmów. Obejmuje ponad 15 000 pytań wielokrotnego wyboru związanych z fragmentami filmów, wokół których zawarto narrację, napisy i opisy.

Zastosowania: Automatyczna analiza filmów, tworzenie streszczeń.

Licencja: Nieokreślona.

Przykłady z zestawu danych MovieQA.

5. MINT-1T

Największy zestaw danych w tej kategorii, MINT-1T, zawiera aż bilion tokenów tekstowych i 3,4 miliarda obrazów. Został zaprojektowany, aby odzwierciedlać rzeczywiste dokumenty, takie jak strony internetowe czy naukowe publikacje, z wykorzystaniem sposobu łączenia tekstu i obrazów.

Zastosowania: Tworzenie bardziej kontekstualnych asystentów AI.

Licencja: Licencja Creative Commons BY 4.0.

Pięć praktycznych zbiorów danych do trenowania modeli AI opartych na analizie wielomodalnej

Szef Anthropic, Dario Amodei, unika przesłuchania w sprawie sądowej OpenAI dotyczącej praw autorskich

5 powodów, aby poczekać na przyszłorocznego MacBooka Pro

5 powodów, aby poczekać na przyszłorocznego MacBooka Pro

Polub nas i bądź na bieżąco

Ostatnie Wpisy

Informacje

Welcome Back!

Retrieve your password

Add New Playlist