Fivetran, znany dostawca rozwiązań do integracji danych, ogłosił rozszerzenie swojej usługi Managed Data Lake na Google Cloud Storage. Wcześniej dostępna jedynie dla platform AWS i Azure, usługa zyskała teraz natywną integrację z katalogiem BigQuery Metastore. Dzięki temu dane przechowywane w chmurze Google mogą zostać automatycznie katalogowane i udostępnione w formacie zgodnym z wymaganiami nowoczesnych silników analitycznych oraz standardami AI.
Usługa Fivetran Managed Data Lake automatycznie przekształca dane do otwartych formatów tabel, takich jak Apache Iceberg i Delta Lake. To znacznie upraszcza proces analizy danych, umożliwiając ich bezproblemowe przeszukiwanie oraz dostępność w różnych narzędziach i katalogach metadanych. Co istotne, użytkownicy mają możliwość zachowania kontrolowanej i bezpiecznej struktury danych, co jest kluczowe w kontekście zgodności z przepisami i wymagań dotyczących prywatności.
Rozszerzenie usługi na ekosystem Google Cloud zostało ogłoszone podczas wydarzenia Google Cloud Next w Las Vegas. Fivetran współpracuje już z około 4 000 klientów korzystających z usług Google i aktywnie wprowadza nowych użytkowników do wspomnianej platformy. Dzięki bliskiej integracji z BigQuery metastore, dane z Google Cloud Storage są natywnie widoczne i kompatybilne z narzędziami Googla – użytkownicy nie zauważą różnicy pomiędzy tradycyjnym zapytaniem BigQuery a zapytaniem na danych w formacie Iceberg przechowywanych w chmurze.
Data lake to koncepcja, która zyskała na popularności w ostatnich latach, oferując ogromne możliwości gromadzenia surowych danych z różnych źródeł. W przeciwieństwie do relacyjnych hurtowni danych, data lakes przechowują dane w ich pierwotnej postaci i dają użytkownikom pełną elastyczność w zakresie późniejszej analizy. Zwykle dane przechowywane są jako obiekty lub pliki i mogą obejmować zarówno dane ustrukturyzowane, jak i nieustrukturyzowane, co czyni je idealnymi do nowoczesnych zastosowań AI.
W ostatnich latach koncepcja jeziora danych była krytykowana za łatwość popadania w tzw. „data swamps” – nieuporządkowane zbiory, które trudno analizować. Jednak fala zainteresowania generatywną sztuczną inteligencją przywróciła wartość data lakes. Dostępność wszystkich danych w jednym repozytorium – niezależnie od ich struktury – jest nieoceniona w kontekstach takich jak obsługa systemów RAG (retrieval-augmented generation) czy trenowanie dużych modeli językowych.
Fivetran, blisko współpracując z OpenAI, dostarcza rozwiązania z zakresu pipeline’ów danych, których potrzebuje dziś niemal każda firma wdrażająca AI. Współpraca ta skutkuje innowacjami, które pozwalają firmom łączyć dane z setek źródeł, eliminując potrzebę ich wielokrotnego kopiowania. Otwarta architektura rozwiązania wspiera integrację z większością dostępnych narzędzi, od Snowflake po Databricks, co stanowi duży atut dla organizacji migrujących w stronę elastycznych środowisk danych.
Obecnie takie firmy jak Disney, Sonos, Workday czy PwC stosują zarządzane data lakes od Fivetran w celu centralizacji danych wykorzystywanych w obciążeniach AI. Technologia pozwala im na efektywny dostęp do informacji, jednocześnie redukując koszty związane z transmisją i przechowywaniem danych oraz umożliwiając skalowanie analiz bez konieczności duplikowania danych.
Jednym z unikalnych atutów Fivetran jest ekosystem ponad 700 konektorów, który umożliwia szybki dostęp do danych z praktycznie każdego popularnego źródła: od systemów ERP typu SAP, przez CRM-y jak Salesforce, aż po narzędzia marketingowe i aplikacje SaaS. Firma udostępnia również SDK dla partnerów tworzących własne konektory oraz program Powered by Fivetran, pozwalający producentom aplikacji wbudować te narzędzia bezpośrednio w swoje produkty.
Ważnym aspektem rozwiązania jest model bezpieczeństwa. Fivetran oferuje role-based access control (RBAC), szyfrowanie danych oraz funkcje takie jak blokowanie i haszowanie kolumn. Model hybrydowej instalacji, czyli tzw. Hybrid Deployment, umożliwia przetwarzanie danych bez konieczności ich opuszczania sieci klienta – tylko metadane trafiają do panelu zarządzania Fivetran, co jest nieocenione dla organizacji posiadających wrażliwe informacje.
W zakresie transformacji danych Fivetran stawia na prostotę, oferując zestaw gotowych modeli zgodnych z narzędziem dbt Core dla najpopularniejszych źródeł danych. Klienci mogą także tworzyć i zarządzać własnymi modelami dbt, zyskując pełną kontrolę nad procesem ETL bez nadmiaru skomplikowania.
Fivetran, podobnie jak większość nowoczesnych firm technologicznych, jest finansowane przez fundusze venture capital. W 2021 roku ogłoszono rundę finansowania na kwotę 565 milionów dolarów, wyceniając firmę na 5,6 miliarda dolarów. W 2024 roku firma przekroczyła 300 milionów dolarów rocznego przychodu, co stanowi imponujący wzrost w porównaniu do 200 milionów osiągniętych zaledwie rok wcześniej.
Model cenowy Fivetran oparty jest o rzeczywistą konsumpcję – obliczaną na podstawie przetworzonych miesięcznie wierszy aktywnych. Pozwala to zarówno małym i średnim firmom uruchomić projekty przy ograniczonym budżecie, jak i dużym korporacjom łatwo zarządzać kosztami pomimo dynamicznie rosnącej ilości przetwarzanych danych.
Dynamiczny rozwój Fivetran, rosnące zapotrzebowanie na platformy wspierające AI oraz rosnące znaczenie integracji danych sprawiają, że zarządzane przez firmę data lakes mogą stać się kluczowym elementem infrastruktury danych w coraz większej liczbie organizacji.