Współczesny świat technologii staje się coraz bardziej złożony, zwłaszcza w kontekście zarządzania danymi. W dobie sztucznej inteligencji wiele firm i przedsiębiorstw dostrzega korzyści płynące z centralizacji danych w jednym miejscu, takim jak jezioro danych (data lake). Choć to podejście pomaga w eliminacji silosów danych i upraszcza zarządzanie, nie rozwiązuje najważniejszego wyzwania stojącego przed budowaniem zaawansowanych systemów opartych na sztucznej inteligencji – mianowicie przepływu danych.
Wraz z rosnącą liczbą przypadków użycia sztucznej inteligencji generatywnej w przedsiębiorstwach, coraz częściej pojawia się potrzeba natychmiastowego dostępu do danych wewnętrznych firm. Technologie takie jak generowanie na podstawie odzyskiwania danych (ang. Retrieval-Augmented Generation, RAG) oraz bazy danych oparte na wektorach stają się kluczowe dla takich rozwiązań, jednak to nie wszystko. Równie istotne jest dostarczanie aktualnych i precyzyjnych informacji w czasie rzeczywistym.
Wyzwanie dostępu do danych w czasie rzeczywistym
Wyobraźmy sobie stronę internetową związaną z planowaniem podróży, która oferuje asystenta AI pomagającego w organizacji wakacji i rezerwacji hoteli oraz lotów. Aby taki asystent mógł działać skutecznie, potrzebuje on dostępu do aktualnych informacji z różnych źródeł. Musi on zapewnić odpowiedzi w czasie rzeczywistym, gdyż dane, takie jak dostępność hoteli czy specjalne oferty, zmieniają się dynamicznie. W takim środowisku tradycyjne centralizowane podejścia do danych, takie jak jeziora danych, mogą okazać się niewystarczająco szybkie.
Jeziora danych kontra aplikacje SaaS kontra strumieniowanie danych
W większości przypadków jeziora danych oraz inne scentralizowane repozytoria danych działają na zasadzie „lądowania” danych w określonym miejscu, a następnie przetwarzania ich do użytku. Taki proces jest jednak zbyt wolny dla inteligentnych asystentów AI, którzy muszą działać w czasie rzeczywistym. Asystent oparty na modelach językowych (LLM) musi mieć natychmiastowy dostęp do danych, a tradycyjne magazyny danych, takie jak jeziora czy hurtownie danych, nie są w stanie spełnić tego wymagania.
Aplikacje SaaS (oprogramowanie jako usługa) stają przed jeszcze większym wyzwaniem. Weźmy na przykład wiodące systemy zarządzania relacjami z klientami (CRM), które starają się „zawłaszczyć” całą podróż klienta. Jednak dla wielu przypadków użycia sztucznej inteligencji dane te muszą być połączone z innymi źródłami wewnątrz firmy, co pozwoli na uzyskanie pełnego obrazu działalności. Dane przechowywane w aplikacjach SaaS nie są łatwo dostępne do szybkiego przetwarzania i integracji w ramach odpowiedzi generowanych przez systemy AI.
To nie oznacza, że architektury te są bezużyteczne. Zarówno jeziora danych, jak i aplikacje SaaS przynoszą wiele korzyści biznesowych, jednak same w sobie nie są wystarczające, by zasilać systemy RAG, które dostarczają kontekstualne dane do aplikacji generujących treści AI.
Strumieniowanie danych jako klucz do sukcesu
Podejściem, które najlepiej sprawdza się w takich przypadkach, jest strumieniowanie zdarzeń (ang. event streaming). Technologia strumieniowania danych została zaprojektowana w taki sposób, aby w czasie rzeczywistym rozprowadzać strumienie danych po całym przedsiębiorstwie. W przypadku wspomnianego wcześniej systemu podróżnego, konieczne jest pobieranie danych z różnych źródeł: od aplikacji firmowych, przez oprogramowanie SaaS, aż po bazy danych i inne repozytoria. Warto dodać, że te dane mogą być częściowo znormalizowane lub słabo skontekstualizowane, a problem polega na tym, że systemy te są zaprojektowane do natychmiastowej, interaktywnej obsługi zapytań, a zatem nie mogą być łatwo skonsolidowane.
Strumieniowanie zdarzeń rozwiązuje ten problem, ponieważ jest zaprojektowane właśnie do tego rodzaju zadań. Dzięki tej technologii systemy mogą stale zbierać aktualizacje z poszczególnych systemów i prezentować je jako dane w czasie rzeczywistym, które można dostarczyć do aplikacji. Kiedy wszystkie te źródła danych są zaprezentowane jako spójny widok, mogą być połączone z każdym zapytaniem i pomóc interfejsowi AI dostarczyć właściwą odpowiedź.
Przykładów zastosowania strumieniowania zdarzeń w czasie rzeczywistym jest mnóstwo – od gier wieloosobowych, przez spersonalizowane rekomendacje zakupowe, po aplikacje do współdzielenia jazdy czy transakcje giełdowe – wszędzie tam, gdzie ważna jest aktualność informacji i kontekst. Dzięki architekturze opartej na strumieniowaniu danych, przedsiębiorstwa mogą dostarczać interaktywne, spersonalizowane i precyzyjne doświadczenia użytkownikom końcowym.
Jak zacząć?
Wraz z rozwojem przypadków użycia AI, coraz więcej startupów będzie integrować dane przedsiębiorstw w czasie rzeczywistym w swoich rozwiązaniach. Aby pomóc młodym firmom w zdobywaniu umiejętności potrzebnych do integracji technologii strumieniowania danych w aplikacjach AI, firma Confluent uruchomiła program akceleracyjny AI. Jest to wirtualny program trwający 10 tygodni, który obejmuje kursy, wczesny dostęp do technologii Confluent, kredyty na platformę Confluent Cloud oraz wsparcie mentorskie.
W miarę jak chatboty i asystenci wirtualni stają się bardziej powszechni, potrzeba łączenia danych z wielu źródeł w czasie rzeczywistym będzie rosła. RAG dostarcza wzoru na zasilanie aplikacji AI danymi kontekstowymi, ale platforma do strumieniowania danych zapewnia, że wszystkie najcenniejsze dane mogą być dostarczone do modeli LLM, co w efekcie przekłada się na niezapomniane doświadczenia użytkowników.