Cebula ma warstwy. Data Lake ma warstwy

W poprzednim wpisie wyjaśniłem na szybko co to Data Lake. Teraz dowiesz się z jakich warstw się składa i co się pod nimi kryje.

Transient Loading Zone

Jest to pierwsza warstwa do której trafiają dane do naszego Data Lake-a. Mogą to być np.: pliki, logi, dane z baz, hurtowni, wyniki procesów ETL, stream-y i wyniki zapytań jakiegoś API.

Warstwa ta odpowiada za kontrole jakości. Nikt nie chce śmieci w swojej bazie. Wadliwe dane lepiej odrzucić, jednostki sprowadzić do metrycznych (lub odwrotnie) i tak dalej. Oczywiście proces ten należy możliwie zautomatyzować, np.:w MapReduce, Spark lub Airflow.

Oprócz jakości warto zająć się też bezpieczeństwem danych wrażliwych. Warto dokonać analizy czy nie przetwarzamy danych osobowych, medycznych lub finansowych. Można je usunąć, zaszyfrować lub tokenizować/maskować.

Raw Data

Czyli warstwa „surowych” danych. Jednak nie jest to takie proste jak się wydaje. Trafiają tu dane z wielu źródeł, ale nierzadko odnoszą się do wspólnych bytów.

Należy zadbać o jakość danych podstawowych (ang. Master Data). Są to sprawdzone, oczyszczone, a przede wszystkim zaufane dane. Wyróżnić też można dane referencyjne (ang. Reference Data). Są to dane opisujące dopuszczalne wartości. Nie każdy zdaje sobie sprawę o istnieniu metadanych, czyli danych o danych.

Wyobraźmy sobie jak wyglądałoby to w przypadku Facebooka. Danymi podstawowymi są użytkownicy. Polubienia, zainteresowania, adresy, telefony, zdjęcia. Informacje są brane zarówno z portalu, ale też aplikacji mobilnej (w tym dane lokalizacyjne), tzw. pixele Facebooka na portalach i aplikacja Instagram. Danymi referencyjnymi są to dostępne wartości wśród zainteresowań, tagi i etykiety jakimi nas (użytkowników) oznaczają.

I ostatnia część tej warstwy, czyli Discovery Sandbox. Jest to interfejs wystawiony dla zewnętrznych użytkowników. Zapewnia elastyczne, samodzielne funkcje wyszukiwania danych oraz ich analizy.

Czy każdy użytkownik powinien widzieć wszystkie dane? W większości przypadków NIE. Warto zainteresować się tematem i nadać odpowiednie uprawnienia użytkownikom i ACL na pliki. W zależności od platformy Big Data są gotowe narzędzia, które się tym zajmują np. Apache Atlas

Consumption Zone

Czyli to, co tygrysy… tzn biznes lubi najbardziej. Raporty i tabelki. W tej warstwie działają analitycy, Data Science. Dane są wertowane wszerz i wzdłuż.

Osoby bardziej techniczne na pewno docenią możliwości analizy i przetwarzania danych jakie daje im Spark na platformie Apache Zeppelin lub Jupyter.

Dużą rolę odgrywa wizualizacja oraz możliwość dynamicznej analizy (ad-hoc). Istnieje wiele produktów które ułatwiają agregować, analizować i szukać powiązań w dostępnych danych np. Tableau, Qlik, PowerBi.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *