Nadchodzące aktualizacje w ramach funkcji przesyłania i analizy plików w sztucznej inteligencji Gemini od Google zapowiadają się niezwykle interesująco. Dotychczas narzędzie umożliwiało użytkownikom analizowanie różnorodnych dokumentów tekstowych, arkuszy kalkulacyjnych, prezentacji i kodu źródłowego. Teraz jednak Google przygotowuje się do rozszerzenia możliwości Gemini o coś znacznie bardziej multimedialnego – wsparcie dla przesyłania i analizy plików wideo. To spory krok naprzód, który może zrewolucjonizować sposób interakcji użytkownika z danymi wizualnymi.
W najnowszej wersji beta aplikacji Google (16.13.38), eksperci dokonali tak zwanego „APK teardown”, czyli analizy kodu aplikacji, by odkryć nadchodzące funkcje. Choć nie zawsze takie zmiany mają gwarancję pojawienia się w publicznym wydaniu, stanowią silną zapowiedź kierunku rozwoju danego narzędzia. W przypadku Gemini, kod zawiera odniesienia do nowych typów obsługiwanych plików wideo. Użytkownicy będą mogli przesyłać i analizować materiały zapisane w formatach: 3GP, AVI, FLV, MOV, MP4, MPEG, MPG oraz WebM. To bardzo szeroka gama, uwzględniająca zarówno starsze, jak i nowoczesne standardy.
Co szczególnie istotne, Gemini ma obsługiwać przesyłanie wielu plików wideo jednocześnie. Oczywiście, by uniknąć nadużyć i zbytniego obciążenia systemu, wprowadzone zostaną ograniczenia czasowe związane z łącznym czasem trwania materiałów. Te limity będą zróżnicowane w zależności od rodzaju konta – innymi słowy, użytkownicy kont premium będą mogli robić znacznie więcej niż ci korzystający z bezpłatnej wersji usługi. Kody sugerują, że limit może wynosić od kilku minut do kilku godzin łącznego czasu trwania przesyłanych materiałów. To rozwiązanie logiczne, biorąc pod uwagę potencjalne koszty przetwarzania danych wideo w chmurze.
Warto również wspomnieć, że poza wsparciem dla filmów, planowana jest możliwość przesyłania bezpośrednio całych repozytoriów z platformy GitHub. To prawdziwa gratka dla programistów, którzy będą mogli szybciej analizować hurtowo większe fragmenty kodu czy projekty o bardziej złożonej strukturze. Tego typu integracja sprawi, że Gemini stanie się znacznie bardziej wszechstronnym narzędziem nie tylko dla przeciętnego użytkownika, lecz także dla profesjonalistów z branży IT.
Choć żadna z tych funkcji nie została jeszcze oficjalnie ogłoszona przez Google, sposób obecności ich w kodzie aplikacji wskazuje, że wdrożenie jest kwestią czasu. Firma raczej nie komentuje publicznie zmian, dopóki nie są one gotowe na pełną premierę. Jednak wszystkie znaki na niebie i ziemi wskazują, że użytkownicy niedługo będą mogli wykorzystać moc AI, by w pełni zintegrować analizę treści wideo np. w celach edukacyjnych, biznesowych czy technologicznych.
Z perspektywy użytkownika końcowego, oznacza to jeszcze łatwiejszy dostęp do informacji. Wyobraźmy sobie możliwość przesłania wideo z konferencji lub wykładu i otrzymania zwięzłego podsumowania najważniejszych punktów, odnalezienia odpowiedzi na konkretne pytania lub nawet przekształcenia materiału w interaktywną prezentację. Dodając do tego obsługę repozytoriów GitHub, Gemini może wkrótce stać się jednym z najbardziej kompleksowych narzędzi AI dostępnych na rynku – nie tylko rozumiejącym tekst, ale również obraz, dźwięk i kod.
Podsumowując, rozwój funkcji przesyłania i analizy plików wideo w Gemini to naturalny krok naprzód w ewolucji interakcji człowieka z AI. Czekamy na oficjalne ogłoszenie ze strony Google i pierwsze testy nowych opcji w praktyce. Potencjał zmian jest ogromny – teraz wszystko zależy od tego, jak szybko gigant z Mountain View zdecyduje się je wprowadzić.