Delta Lake zdobywa ostatnio coraz większa popularność. Słychać o nim na konferencjach na całym świecie. W tym artykule przyjrzymy się jakie problemy rozwiązuje.
Czytaj dalej „Delta Lake w Pigułce (czyli o podróżach w czasie)”Spark i Elasticsearch? To tak można? elasticsearch-spark
Elasticsearch można lubić lub nie. Fakty są takie, że robi robotę. Razem z Kibana, Logstash i Beats pozwalają w prosty sposób zbierać logi, metryki i przeprowadzać analizy w czasie rzeczywistym. Gdy potrzebujemy więcej, możemy chwycić za inne narzędzia. W tym wpisie przyjrzymy się jak połączyć Apache Spark i Elasticsearch.
Czytaj dalej „Spark i Elasticsearch? To tak można? elasticsearch-spark”Keep Calm And Serilog Elasticsearch Kibana on .NET Core – 132. Spotkanie WG.NET
Prędzej czy później programista dowiaduje się o istotności logowania w swojej aplikacji. Najlepiej podejść do tematu w sposób “leniwy” tj. minimum wysiłku, maksimum efektów ?. Elasticsearch i Kibana bardzo w tym pomagają. 16.01.2020 przedstawiłem swoje doświadczenia z tym związane na meetup-ie Warszawskiej Grupy .NET .
Czytaj dalej „Keep Calm And Serilog Elasticsearch Kibana on .NET Core – 132. Spotkanie WG.NET”Wizualizacja map w Elasticsearch i Kibana – GPS komunikacji miejskiej
Myślisz o analizie i wizualizacji danych geo? Czemu nie spróbować Elasticsearch? Tzw. ELK (Elasticsearch + Logstash + Kibana) to nie tylko baza NoSQL. Jest to cały system, który umożliwia przechowywanie, wyszukiwanie, analizę i wizualizację danych z dowolnego źródła w czasie rzeczywistym. W tym przypadku wykorzystamy otwarte dane lokalizacji komunikacji miejskiej w Warszawie. Wspomniałem o nich w tym artykule.
Czytaj dalej „Wizualizacja map w Elasticsearch i Kibana – GPS komunikacji miejskiej”Nie masz środowiska? Docker na pomoc!
Dlaczego Docker? Wiele osób pyta mnie, czy do nauki potrzebne jest specjalne środowisko lub klaster. Klaster na pewno jest fajną opcją. Mimo wszystko sporo możliwości daje pojedyncza maszyna z Dockerem na pokładzie.
Czytaj dalej „Nie masz środowiska? Docker na pomoc!”Kto najlepiej ćwierka? Podstawy Graphframes + Tweepy
Słyszałeś/aś o Apache Graphframes? Teoria grafów to nie tylko ich własności, ale i algorytmy. Przekształcenie danych do modelu grafowego umożliwia zastosowanie niektórych z nich. W tym wpisie pobierzemy dane “followersów” z Twittera i wykonamy parę prostych algorytmów w Graphframes w PySparku.
Czytaj dalej „Kto najlepiej ćwierka? Podstawy Graphframes + Tweepy”Obliczanie prędkości w Apache Spark – GPS komunikacji miejskiej
W poprzednim poście utworzyliśmy strumień danych lokalizacji pojazdów komunikacji miejskiej na jednym z topiców w Apache Kafka. Teraz dorwiemy się do tego strumienia z poziomu Apache Spark, zapiszemy trochę danych na HDFS i zobaczymy czy da się coś z nimi zrobić.
Czytaj dalej „Obliczanie prędkości w Apache Spark – GPS komunikacji miejskiej”Apache Airflow + Kafka – Zbieramy dane GPS komunikacji miejskiej
Dziś przyjrzymy się narzędziu, jakim jest Apache Airflow. Spróbujemy użyć dwóch operatorów i zasilić kafkę danymi z API. Przy okazji rozpoczynam taki “mini projekcik”. Nie wiem jak Tobie, ale najlepiej poznaję różne technologie poprzez praktykę.
Czytaj dalej „Apache Airflow + Kafka – Zbieramy dane GPS komunikacji miejskiej”Problem małych plików w HDFS
Korzystanie z HDFS bardzo przypomina korzystanie ze zwykłego systemu plików z użyciem terminala. Grupy, uprawnienia, pliki, foldery itp. Bawiąc się kolejnymi technologiami Big Data można zapomnieć się i potraktować HDFS jak zwykły dysk.
Czytaj dalej „Problem małych plików w HDFS”Skąd brać dane? 11 źródeł (w tym polskie)
Bawiąc się różnymi bibliotekami, frameworkami itp. potrzebujemy danych. Możemy takie wygenerować, ale efekt nie będzie ten sam. Dane pochodzące z rzeczywistego źródła lepiej oddają różnorodność (jedna z V z której składa się Big Data). Są też po prostu ciekawsze, trudniejsze i mogą być związane naszymi zainteresowaniami (np. triathlon)
Czytaj dalej „Skąd brać dane? 11 źródeł (w tym polskie)”