Dziś przyjrzymy się narzędziu, jakim jest Apache Airflow. Spróbujemy użyć dwóch operatorów i zasilić kafkę danymi z API. Przy okazji rozpoczynam taki “mini projekcik”. Nie wiem jak Tobie, ale najlepiej poznaję różne technologie poprzez praktykę.
Czytaj dalej „Apache Airflow + Kafka – Zbieramy dane GPS komunikacji miejskiej”Miesiąc: listopad 2019
Problem małych plików w HDFS
Korzystanie z HDFS bardzo przypomina korzystanie ze zwykłego systemu plików z użyciem terminala. Grupy, uprawnienia, pliki, foldery itp. Bawiąc się kolejnymi technologiami Big Data można zapomnieć się i potraktować HDFS jak zwykły dysk.
Czytaj dalej „Problem małych plików w HDFS”Skąd brać dane? 11 źródeł (w tym polskie)
Bawiąc się różnymi bibliotekami, frameworkami itp. potrzebujemy danych. Możemy takie wygenerować, ale efekt nie będzie ten sam. Dane pochodzące z rzeczywistego źródła lepiej oddają różnorodność (jedna z V z której składa się Big Data). Są też po prostu ciekawsze, trudniejsze i mogą być związane naszymi zainteresowaniami (np. triathlon)
Czytaj dalej „Skąd brać dane? 11 źródeł (w tym polskie)”Półtora miliarda haseł w Spark – część 3 – partycjonowanie danych
Do tej pory operacje na zbiorze maili i haseł zaspokajały naszą ciekawość. Teraz wytworzymy wartość biznesową wykorzystując partycjonowanie danych. Na pewno wolelibyśmy uniknąć sytuacji w której ktoś korzystający z naszego systemu używa hasła które wyciekło.
Czytaj dalej „Półtora miliarda haseł w Spark – część 3 – partycjonowanie danych”Półtora miliarda haseł w Spark – część 2 – formaty danych
W poprzedniej części, po przygotowaniu danych w Apache Spark-u i zapisaniu ich w formacie Parquet, widać było sporą poprawę w czasie wykonania zapytań. Czy było to konieczne? Jakie są inne formaty danych i który wypada korzystniej? Przekonajmy się.
Czytaj dalej „Półtora miliarda haseł w Spark – część 2 – formaty danych”