Google wprowadza istotną nowość w swoim interfejsie API dla modeli sztucznej inteligencji Gemini, która ma na celu istotne obniżenie kosztów korzystania z najnowszych modeli przez deweloperów zewnętrznych. Nowa funkcja nosi nazwę „implicit caching” – czyli mechanizm automatycznego buforowania, który pozwala na znaczną oszczędność zasobów przy przetwarzaniu powtarzalnego kontekstu w zapytaniach wysyłanych do modeli AI.
Według Google, zastosowanie tego rozwiązania może przynieść nawet do 75% oszczędności na obliczeniach związanych z analizowaniem powtarzających się danych. Funkcja ta obsługuje dwa obecnie najnowsze modele, czyli Gemini 2.5 Pro oraz lżejszy wariant Gemini 2.5 Flash. Z tego względu może to być duże ułatwienie dla twórców aplikacji AI, którzy do tej pory mierzyli się z gwałtownie rosnącymi kosztami obsługi zaawansowanych modeli AI, a różnice cenowe pomiędzy kolejnymi wersjami modeli stały się tematem gorących dyskusji w społeczności technologicznej.
Buforowanie (caching) to powszechnie stosowana technika w modelach sztucznej inteligencji, pozwalająca ograniczyć powtarzane obliczenia poprzez zachowanie wyników wcześniej uruchomionych zapytań. Dzięki temu, gdy użytkownicy ponownie wysyłają podobne instrukcje do modelu, może on skorzystać z gotowej odpowiedzi zapamiętanej w pamięci podręcznej, co znacznie przyspiesza działanie systemu i obniża koszty obliczeniowe. Wcześniej Google oferowało jedynie tzw. „jawne buforowanie” (explicit caching), które jednak wymagało od deweloperów ręcznego definiowania najczęściej wykorzystywanych zapytań. Choć w teorii miało to przynieść oszczędności, w praktyce nierzadko prowadziło do błędów i skomplikowanego zarządzania danymi wejściowymi – szczególnie przy modelu 2.5 Pro, który generował zdumiewająco wysokie rachunki za API.
Różnica między wcześniejszym rozwiązaniem a nowym polega właśnie na automatyzacji. „Implicit caching” jest aktywne domyślnie i nie wymaga żadnej dodatkowej konfiguracji – wystarczy, że zapytanie użytkownika zawiera podobny początek (tzw. prefix) do wcześniej zarejestrowanego w systemie, a model użyje bufora i zwróci wynik bez ponownego przeliczania całego kontekstu. Co istotne, zgodnie z dokumentacją Google, minimalny próg wejściowy dla buforowania to zaledwie 1024 tokeny dla wariantu Flash oraz 2048 tokenów dla modelu Pro. Dla kontekstu, tysiąc tokenów odpowiada mniej więcej 750 słowom, co oznacza, że stosunkowo łatwo można spełnić ten warunek w praktycznych zastosowaniach.
W przypadku modeli generatywnych, które do działania wykorzystują długie historie konwersacji lub rozbudowane instrukcje promptowe, każde zapytanie może liczyć tysiące tokenów. Dlatego nowy system buforowania ma szansę znacząco odciążyć infrastrukturę obliczeniową i obniżyć rachunki, zwłaszcza w aplikacjach, gdzie duża część kontekstu się powtarza – np. w chatbotach, automatycznych asystentach czy systemach rekomendacji.
Google zachęca również deweloperów do optymalizacji kolejności danych w zapytaniach – najlepiej jest umieszczać powtarzalny kontekst na początku promptu, ponieważ właśnie ten początek jest brany pod uwagę przy decydowaniu, czy zapytanie „trafi w bufor”. Elementy promptu zależne od bieżącego kontekstu można dopisać do końca – w ten sposób wzrasta szansa na automatyczne zastosowanie tańszego trybu przetwarzania.
Nie wszystko jednak zostało rozwiązane. Wśród społeczności pojawiają się głosy sceptycyzmu, szczególnie że wcześniejsze próby wprowadzenia podobnych funkcji nie przynosiły oczekiwanych efektów. Niektórzy deweloperzy podkreślają brak zewnętrznej walidacji działania nowego systemu i zastanawiają się, czy rzeczywiście zapewni on deklarowane oszczędności. Google nie udostępniło jeszcze danych potwierdzających skuteczność „implicit caching” w środowiskach produkcyjnych, dlatego najbliższe tygodnie będą kluczowe dla oceny tej implementacji przez społeczność twórców.
Niemniej jednak, automatyczne buforowanie zapytań w modelach Gemini to krok w dobrym kierunku, jeśli chodzi o ułatwienie korzystania z generatywnej AI na masową skalę. Dla mniejszych firm może to oznaczać dostęp do zaawansowanych modeli przy niższym koszcie, podczas gdy większe przedsiębiorstwa zyskają na efektywności operacyjnej. Czas pokaże, czy nowa funkcja okaże się rzeczywistą rewolucją w sposobie, w jaki tworzymy i monetyzujemy aplikacje oparte o modele językowe.