Google intensywnie rozwija swoją linię „otwartych” modeli sztucznej inteligencji znanych jako Gemma. Podczas tegorocznej konferencji Google I/O 2025 zaprezentowano najnowsze osiągnięcie w tej serii – model Gemma 3n, zaprojektowany z myślą o optymalnym działaniu na urządzeniach mobilnych, takich jak smartfony, tablety oraz laptopy. Nowy model, dostępny już w wersji zapoznawczej, potrafi analizować dane dźwiękowe, tekst, obrazy oraz wideo.
Rosnące zainteresowanie modelami AI, które potrafią pracować lokalnie – bez konieczności przesyłania danych do chmury – nie jest przypadkiem. W porównaniu z dużymi modelami działającymi w centrach danych, modele zoptymalizowane do działania offline oferują nie tylko większą efektywność i niższe koszty integracji, ale również istotne z punktu widzenia użytkownika korzyści w zakresie zachowania prywatności. Redukując potrzebę przesyłania informacji do zewnętrznych serwerów, użytkownik zyskuje większą kontrolę nad swoimi danymi.
Jak podkreślił Gus Martins – menedżer produktu Gemma – podczas wystąpienia na konferencji, Gemma 3n została zaprojektowana z myślą o urządzeniach z zaledwie 2 GB pamięci RAM. To imponujące osiągnięcie, zważywszy na coraz bardziej zaawansowane możliwości przetwarzania danych, jakie oferują współczesne modele AI. „Gemma 3n bazuje na tej samej architekturze, co Gemini Nano i wyróżnia się niesamowitą wydajnością” – dodał Martins.
Nowością w portfolio AI Google’a jest także MedGemma – model stworzony w ramach programu Health AI Developer Foundations. Jest to najbardziej zaawansowany dotąd otwarty model Google do analizowania tekstów i obrazów związanych z tematyką zdrowotną. Według zapewnień firmy, MedGemma świetnie sprawdza się w szerokim zakresie zastosowań, umożliwiając deweloperom dostosowywanie jego funkcji do indywidualnych potrzeb aplikacji medycznych.
„MedGemma to nasz zestaw otwartych modeli do wielomodowej analizy tekstu oraz obrazów w obszarze zdrowia – powiedział Martins – Deweloperzy mogą łatwo zaadaptować te modele na potrzeby własnych aplikacji zdrowotnych, zarówno tych diagnostycznych, jak i edukacyjnych.”
W planach rozwojowych znajduje się również SignGemma – model otwartej sztucznej inteligencji, który tłumaczy język migowy na tekst w języku mówionym. Google zapowiada, że technologia ta umożliwi tworzenie nowej generacji aplikacji dostępnościowych, przeznaczonych dla osób głuchych oraz niedosłyszących.
„SignGemma to nowa rodzina modeli AI, przystosowana do tłumaczenia języka migowego na tekst w języku mówionym, szczególnie w zakresie amerykańskiego języka migowego oraz języka angielskiego – wyjaśnił Martins – Jest to obecnie najbardziej zaawansowany model w zakresie rozumienia języka migowego, a my nie możemy się doczekać, aż deweloperzy oraz społeczności osób głuchych i niedosłyszących zaczną z niego korzystać i rozwijać nowe rozwiązania.”
Warto jednak zauważyć, że pomimo entuzjazmu i ogromnej liczby pobrań modeli z serii Gemma (łączna liczba przekroczyła już dziesiątki milionów), produkt Google doczekał się również krytyki ze strony części środowiska deweloperskiego. Zarzuty dotyczą niestandardowych warunków licencyjnych, które – jak twierdzą niektórzy programiści – wprowadzają niepewność prawną i mogą utrudniać komercyjne wykorzystanie tych modeli.
Pomimo tych kontrowersji, rosnące zainteresowanie i liczba zastosowań modeli Gemma świadczą o tym, że deweloperzy na całym świecie są gotowi eksperymentować i budować nowe narzędzia oparte na otwartych, lokalnie uruchamianych rozwiązaniach AI. Jeśli Google uda się utrzymać transparentność i uprościć zasady licencjonowania, przyszłość rodziny Gemma może zrewolucjonizować sposób, w jaki wykorzystujemy AI w codziennym życiu.