Big Data to 3 słowa

big data

Co to jest w ogóle Big Data? Słyszymy o systemach, technologiach, rozwiązaniach… a nawet o systemach klasy Big Data. Jest to trochę takie słowo wytrych, buzzword, które nabrało popularności i się „sprzedaje”. Poniżej opisałem to co kryje się pod tym terminem według mnie.

Termin Big Data najczęściej kojarzony jest z technologią Hadoop, czyli podejściem do rozproszonego przetwarzania danych wykorzystującego technikę MapReduce. Czy Hadoop to Big Data? Nie, nie tylko. Jak widać np. w tym wpisie (https://usefulstuff.io/big-data/) technologii jest od… bardzo dużo. Jedne technologie przychodzą, drugie odchodzą. Dlatego słowo klucz to rozproszone przetwarzanie danych.

Ale moment, moment. Przecież Hadoop to rok około 2011. Przecież wcześniej ludzie musieli sobie jakoś radzić przy tworzeniu analiz czy raportów dla zarządu. Zgadza się. Wcześniej były potężne serwery SQL, obok Hurtownie Danych, procesy ETL. Okazuje się jednak, że serwer SQL (który kojarzy mi się ze scyzorykiem – lepiej lub gorzej ale zrobi prawie wszystko) średnio radzi sobie z danymi, które nie posiadają z góry narzuconej struktury, często się zmieniają i nie są do końca pewne.

Piątka!

Zdefiniowano pięć V jakimi cechują się problemy adresowane przez technologie Big Data. Jest to:

  • Volume – czyli rozmiar danych – 90% z nich zostało utworzone w ciągu ostatnich 2 lat. To mówi samo za siebie. Nie możemy takich danych po prostu wrzucić do pamięci i przemielić. Nierzadko przekraczają one wielkość dysku twardego.
  • Velocity – czyli szybkość zmian – dane się dezaktualizują a okno czasowe na podjęcie decyzji jest ograniczone. Porównałbym to do prognozy pogody: informacja o wczorajszym deszczu otrzymana dzisiaj jest mało przydatna.
  • Variety – czyli różnorodność typów danych – oprócz danych ustrukturyzowanych (takich, które w prosty sposób możemy zmieścić w tabeli) występują dane nieustrukturyzowane. Są to najczęściej zdjęcia, wideo, wpisy na portalach social media. Stanowią one około 80% całości.
  • Veracity – czyli jakość/wiarygodność danych – zarówno ludzie i urządzenia często mylą się. Pani Grażynka wprowadzając dane do systemu pomyli kolumny, internetowy troll będzie siał zniszczenie i nieprawdę na Facebooku, a wg. nawigacji GPS w telefonie czasem się wydaje że jedziemy polem kukurydzy obok autostrady.
  • Value – czyli wartość – możemy przechowywać niezliczoną ilość danych, ale są one tylko kosztem dopóki nie wydobędziemy z nich wartości

W następnym wpisie przyjrzymy się architekturze Data Lake która adresuje wyżej wymienione problemy.

2 myśli w temacie “Big Data to 3 słowa”

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *