Apple Planet
  • REDAKCJA
  • WSPÓŁPRACA
  • POLITYKA PRYWATNOŚCI
No Result
View All Result
  • Apple
  • Sztuczna inteligencja AI
  • Smartfony
  • Nauka i technika
  • Komputery & Tablety
  • Security
  • Nowinki
    • Recenzje
    • Poradniki
    • iDared Serwis
      • Serwis iPhone
      • Serwis MacBook
      • Serwis Telefonów Samsung
      • Serwis Telefonów Xiaomi
środa, 14 maja, 2025
  • Apple
  • Sztuczna inteligencja AI
  • Smartfony
  • Nauka i technika
  • Komputery & Tablety
  • Security
  • Nowinki
    • Recenzje
    • Poradniki
    • iDared Serwis
      • Serwis iPhone
      • Serwis MacBook
      • Serwis Telefonów Samsung
      • Serwis Telefonów Xiaomi
No Result
View All Result
Apple Planet
No Result
View All Result
Home Sztuczna inteligencja AI

Pięć praktycznych zbiorów danych do trenowania modeli AI opartych na analizie wielomodalnej

od Pan z ApplePlanet
2 lutego, 2025
w Sztuczna inteligencja AI
0
Pięć praktycznych zbiorów danych do trenowania modeli AI opartych na analizie wielomodalnej
466
SHARES
1.5k
VIEWS
Udostępnij na FacebookuUdostępnij na Tweeterze
  1. Strona główna
  2. Sztuczna Inteligencja
  3. Zestawy danych dla AI multimodalnej

Flickr30K Entities to rozszerzenie popularnego zestawu Flickr30K, który zawiera ponad 31 000 obrazów z platformy Flickr. Każdy obraz posiada pięć opisów na podstawie crowd-source, a nowa wersja dodaje 244 000 łańcuchów koreferencyjnych oraz oznaczenia ramkowe dla obiektów obecnych na zdjęciach.

Zastosowania: Generowanie opisów obrazów w czasie rzeczywistym, wyszukiwanie obrazów.

Licencja: Użytkowanie zgodne z zasadami platformy Flickr do celów badawczych i edukacyjnych.

Przykłady z zestawu danych Flickr30K Entities.

2. InternVid

InternVid to nowoczesny zestaw danych przeznaczony do analizy wideo, zawierający ponad 7 milionów wideo o łącznym czasie trwania około 760 000 godzin. Klipy wideo, których jest aż 234 miliony, są powiązane z bogatymi opisami, składającymi się w sumie z ponad 4,1 miliarda słów.

Zastosowania: Tworzenie chatbotów wideo, personalizowana edukacja online.

Licencja: Licencja Apache 2.0.

3. MuSe-CaR (Multimodal Sentiment Analysis in Car Reviews)

Zestaw MuSe-CaR skupia się na analizie emocji w kontekście recenzji wideo, dostarczając ponad 40 godzin materiału wideo z bogatymi adnotacjami. Dane te pokazują elementy emocjonalne, takie jak mimika, gesty czy intonacja głosu.

Zastosowania: Chatboty do diagnozy zdrowia psychicznego, automatyczny system analizy zadowolenia klientów.

Licencja: Do użytku niekomercyjnego zgodnie z licencją EULA.

Przykłady z zestawu danych MuSe-CaR.

4. MovieQA

MovieQA to multimodalny zestaw pytań i odpowiedzi związany z fabułą filmów. Obejmuje ponad 15 000 pytań wielokrotnego wyboru związanych z fragmentami filmów, wokół których zawarto narrację, napisy i opisy.

Zastosowania: Automatyczna analiza filmów, tworzenie streszczeń.

Licencja: Nieokreślona.

Przykłady z zestawu danych MovieQA.

5. MINT-1T

Największy zestaw danych w tej kategorii, MINT-1T, zawiera aż bilion tokenów tekstowych i 3,4 miliarda obrazów. Został zaprojektowany, aby odzwierciedlać rzeczywiste dokumenty, takie jak strony internetowe czy naukowe publikacje, z wykorzystaniem sposobu łączenia tekstu i obrazów.

Zastosowania: Tworzenie bardziej kontekstualnych asystentów AI.

Licencja: Licencja Creative Commons BY 4.0.

Podsumowanie

Modele multimodalne otwierają nowe możliwości, a odpowiednie zestawy danych umożliwiają ich skuteczniejsze szkolenie. Oprócz wymienionych wyżej zestawów warto także zwrócić uwagę na opcje takie jak BigDocs czy Newsmediabias-plus, które wspomagają analizę struktury dokumentów czy weryfikację informacji.

Nieustannie pojawiają się nowe zestawy danych, dostarczając narzędzi pozwalających programistom wdrażać innowacyjne i bardziej wszechstronne aplikacje AI.

Share186Tweet117
Poprzedni artykuł

Szef Anthropic, Dario Amodei, unika przesłuchania w sprawie sądowej OpenAI dotyczącej praw autorskich

Następny artykuł

5 powodów, aby poczekać na przyszłorocznego MacBooka Pro

Następny artykuł
5 powodów, aby poczekać na przyszłorocznego MacBooka Pro

5 powodów, aby poczekać na przyszłorocznego MacBooka Pro

Zapraszamy

Polub nas i bądź na bieżąco

Ostatnie Wpisy

  • Google prezentuje Gemini — nową technologię dla Android Auto i samochodów z wbudowanymi usługami Google 14 maja, 2025
  • Slack dodaje przycisk „Oznacz jako przeczytane” w powiadomieniach na Androidzie – szybsze zarządzanie wiadomościami 14 maja, 2025
  • Użytkownicy Google Maps na Androidzie otrzymują nowy przełącznik kont 14 maja, 2025
  • Google Photos może pójść śladem Studia Ghibli dzięki funkcji Remix 14 maja, 2025
  • Sterowanie urządzeniami Apple za pomocą myśli – przełomowa technologia interfejsu mózg-komputer 14 maja, 2025

Informacje

  • Polityka prywatności
  • Redakcja
  • Współpraca
  • REDAKCJA
  • WSPÓŁPRACA
  • POLITYKA PRYWATNOŚCI

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Apple
  • Sztuczna inteligencja AI
  • Smartfony
  • Nauka i technika
  • Komputery & Tablety
  • Security
  • Nowinki
    • Recenzje
    • Poradniki
    • iDared Serwis
      • Serwis iPhone
      • Serwis MacBook
      • Serwis Telefonów Samsung
      • Serwis Telefonów Xiaomi