Jednym z najczęściej zgłaszanych wyzwań przy wdrażaniu modeli uczenia maszynowego (ML) i dużych modeli językowych (LLM) do środowiska produkcyjnego nie jest, jak mogłoby się wydawać, kwestia bezpieczeństwa danych, lecz brak odpowiedniej obserwowalności i systemów monitorowania. Tak wynika z badania przeprowadzonego przez Institute for Ethical AI & Machine Learning w ostatnim kwartale 2024 roku. Wyniki ankiety przeprowadzonej wśród 170 specjalistów z branży – w tym inżynierów ML, specjalistów MLOps oraz naukowców zajmujących się danymi – jasno pokazują, że brak skutecznych narzędzi do śledzenia działania modeli w czasie rzeczywistym jest obecnie największą przeszkodą w ich skutecznym wdrażaniu.
Ciekawym aspektem badania jest to, że zaledwie 7% respondentów wskazało bezpieczeństwo jako jeden z trzech największych problemów, a tylko 17% wspomniało o zarządzaniu ryzykiem i zgodnością z przepisami. Ten wynik znacząco odbiega od wcześniejszych analiz branżowych, w których kwestie związane z bezpieczeństwem i zgodnością były uznawane za kluczowe. Sugeruje to, że praktycy traktują bezpieczeństwo mniej holistycznie – skupiają się przede wszystkim na odporności modeli na ataki, a mniej na zagrożeniach związanych z dostępem do danych osobowych czy korporacyjnych.
W erze rosnącej popularności generatywnej sztucznej inteligencji oraz agentów AI wspieranych przez duże modele językowe, organizacje coraz chętniej eksperymentują z ich wdrażaniem. Jednocześnie popularność rośnie także w obszarach takich jak analityka predykcyjna czy systemy wizyjne. W miarę skalowania tych rozwiązań pojawiają się jednak trudności zarówno na etapie wdrażania (tzw. Day 1), jak i przy późniejszym utrzymaniu (Day 2). To właśnie dlatego powstały nowe dziedziny takie jak MLOps, LLMOps czy GenAIOps, które starają się sprostać specyficznym wyzwaniom operacyjnym wynikającym z ciągłego nadzorowania zaawansowanych systemów AI.
Nie można mówić o skutecznym wdrażaniu AI bez odpowiedniego poziomu obserwowalności. Kluczowe pytanie nie brzmi już, czy organizacja powinna monitorować swoje modele, ale jak to robić dobrze. W kontekście LLM-ów dochodzą nowe komplikacje – jak mierzyć jakość i zgodność generowanych treści, jak wykrywać halucynacje modelu i jak dobrze interpretować przyczyny błędnych predykcji.
Badanie objęło również analizę wykorzystywanych narzędzi technologicznych wspierających procesy związane z ML/AI. Wyraźnie widać dominację rozwiązań własnych, czyli tworzonych wewnętrznie przez zespoły inżynierskie. Tylko kilka komercyjnych platform uzyskało znaczący udział w rynku. Przykładowo, aż 65% użytkowników korzysta z usług zarządzanych dla modeli lub LLM-ów. Wśród nich najczęściej wybierane są: OpenAI (38%), AzureAI (20%) i Amazon Bedrock (12%).
W segmentach bardziej specjalistycznych również dostrzegalna jest przewaga otwartych i dostosowanych narzędzi. MLflow prowadzi w obszarze rejestracji modeli i śledzenia eksperymentów – korzysta z niego 48% użytkowników tych funkcji. Z kolei w przypadku orkiestratorów ETL i przepływów pracy najczęściej wykorzystywany jest Apache Airflow (40%), a zaraz za nim uplasowały się narzędzia własnej produkcji (17%) oraz Argo Workflows (11%).
W obszarze publikowania modeli w czasie rzeczywistym dominują lekkie frameworki typu FastAPI lub Flask Wrappers. Są one wybierane aż przez 46% użytkowników (w szczególności przez naukowców danych – 70%). W dalszej kolejności wymieniane są narzędzia własne (16%) i AWS SageMaker (12%).
Patrząc całościowo, krajobraz narzędzi wspierających wdrożenia ML i LLM wskazuje na ogromne zapotrzebowanie na elastyczność, łatwość integracji i pełną kontrolę nad procesami. W tym kontekście, obserwowalność nie jest jedynie dodatkową funkcją – staje się podstawowym wymogiem każdej organizacji poważnie myślącej o wejściu w świat zaawansowanej AI. Implementacja rozwiązań umożliwiających pełen wgląd w działanie modeli to dyskusja, której nikt nie może już pomijać.