Podczas tegorocznej konferencji Google I/O 2025 gigant technologiczny zaprezentował szeroką gamę innowacyjnych narzędzi i aktualizacji, kładąc zdecydowany nacisk na rozwój sztucznej inteligencji. Największe emocje wzbudziły nowe wersje modeli Gemini 2.5 (Flash i Pro), potężniejszy generator obrazów – Imagen 4, ulepszony silnik do generowania wideo – Veo 3, oraz zupełnie nowe narzędzie do tworzenia filmów – Flow, które łączy możliwości wszystkich powyższych rozwiązań, umożliwiając generowanie realistycznych scen jedynie na podstawie tekstowego opisu.
Model Gemini 2.5 to znaczący krok naprzód w dziedzinie wielomodalnych modeli językowych. Nowa odsłona obsługuje ponad 24 języki w trybie tekst-na-mowę, oferując bardziej ekspresyjne i realistyczne głosy, co jeszcze bardziej zbliża komunikację z AI do ludzkiej interakcji. Według Google’a, nowy model oferuje też poprawioną zdolność rozumienia kontekstu, doskonalsze algorytmy kodowania, a także lepsze wnioskowanie – kluczowe przy pracy z danymi o dużym stopniu złożoności.
Najciekawszą nowością w wersji Pro jest funkcja „Deep Think” – eksperymentalny tryb zaawansowanego rozumowania wykorzystywanego w skomplikowanych zadaniach matematycznych i programistycznych. Umożliwia on AI analizowanie wielu hipotez jednocześnie przed sformułowaniem odpowiedzi, zwiększając precyzję i trafność wyników. Dzięki temu rozwiązaniu, Gemini 2.5 Pro osiąga czołowe wyniki w testach WebDev Arena i LMArena, wyznaczając nowe standardy dla AI w zakresie budowy aplikacji webowych i zaawansowanego programowania.
Wersja Flash modelu Gemini 2.5 jest już dostępna w ramach testów w aplikacji Gemini i trafi do szerokiego grona użytkowników jeszcze w czerwcu. Wariant Pro zostanie udostępniony komercyjnie nieco później. Oba modele zostały również wyposażone w większe ograniczenia kontekstowe – aż do miliona tokenów – co pozwala im efektywnie analizować i przetwarzać znacznie dłuższe dokumenty i rozmowy. Ulepszono także bezpieczeństwo przed atakami typu indirect prompt injection.
W obszarze generowania obrazów, Google zaprezentował Imagen 4 – nową generację swojego silnika AI do tworzenia grafik. Imagen 4 potrafi teraz renderować obrazy w rozdzielczości 2K i znacznie lepiej radzi sobie z odwzorowywaniem tekstu na kartkach, plakatach czy komiksach. Udoskonalono także realistykę i szczegółowość wygenerowanych elementów, dzięki czemu grafiki wyglądają bardziej jak prawdziwe, ręcznie wykonane projekty niż sztucznie stworzone ilustracje. Imagen 4 jest już dostępny w aplikacjach Gemini, Google Workspace, Whisk oraz Vertex AI.
Równie imponującą nowością jest Veo 3 – trzecia generacja silnika AI do generowania wideo. Umożliwia on tworzenie filmów z dźwiękiem, realistycznymi dialogami, a także odgłosami tła, co zapewnia znacznie większą immersję. Nowy model lepiej rozumie komendy tekstowe i potrafi przełożyć je na złożone, wielowymiarowe ujęcia wideo. Co więcej, jego poprzednik – Veo 2 – również zyskał aktualizacje, w tym obsługę ruchów kamery, dodawanie i usuwanie obiektów, opcję rozciągania obrazu poza pierwotną ramę oraz możliwość nadawania filmom konkretnego stylu za pomocą obrazów referencyjnych.
Jednym z najbardziej innowacyjnych rozwiązań zaprezentowanych podczas konferencji było Flow – zupełnie nowe narzędzie do filmowej produkcji oparte na sztucznej inteligencji. Łączy ono moc modeli Imagen, Veo oraz Lyria, zapewniając twórcom filmowym narzędzie, które pozwala kreować filmowe sekwencje na podstawie prostych opisów. Flow pozwala kontrolować ruch kamery, kąty ujęć i perspektywy oraz umożliwia edytowanie i rozszerzanie już wygenerowanych filmów. Dzięki tak precyzyjnemu sterowaniu, użytkownicy mogą tworzyć realistyczne sceny z zachowaniem zasad fizyki i kinematograficznej estetyki. Narzędzie dostępne jest obecnie dla subskrybentów pakietów Google AI Pro oraz Ultra w USA.
Nowości zaprezentowane przez Google podczas I/O 2025 potwierdzają trend intensywnego rozwoju modeli generatywnych, które coraz lepiej odczytują ludzki język, emocje i kontekst. Z każdą generacją oferują więcej możliwości – nie tylko dla profesjonalistów branży kreatywnej, ale także codziennych użytkowników, szukających potężnych, ale łatwych w użyciu narzędzi do pracy, nauki i zabawy.