Nie czytaj plików. Elasticsearch zrobi to za Ciebie.

Pewnie się zdziwi Cie ta informacja. Elasticsearch służy do… szukania. Tak. To prawda. Okazuje się, że można go wykorzystać również do indeksowania zawartości plików typu doc, docx, pdf itp. W tym wpisie przyjrzymy się jak to zrobić, jak zmienić analizator oraz jak „zgubić” plik jeśli i tak trzymamy go np. na S3.

Czytaj dalej Nie czytaj plików. Elasticsearch zrobi to za Ciebie.

Spark i Elasticsearch? To tak można? elasticsearch-spark

Elasticsearch można lubić lub nie. Fakty są takie, że robi robotę. Razem z Kibana, Logstash i Beats pozwalają w prosty sposób zbierać logi, metryki i przeprowadzać analizy w czasie rzeczywistym. Gdy potrzebujemy więcej, możemy chwycić za inne narzędzia. W tym wpisie przyjrzymy się jak połączyć Apache Spark i Elasticsearch.

Czytaj dalej Spark i Elasticsearch? To tak można? elasticsearch-spark

Keep Calm And Serilog Elasticsearch Kibana on .NET Core – 132. Spotkanie WG.NET

Prędzej czy później programista dowiaduje się o istotności logowania w swojej aplikacji. Najlepiej podejść do tematu w sposób „leniwy” tj. minimum wysiłku, maksimum efektów 😉. Elasticsearch i Kibana bardzo w tym pomagają. 16.01.2020 przedstawiłem swoje doświadczenia z tym związane na meetup-ie Warszawskiej Grupy .NET .

Czytaj dalej Keep Calm And Serilog Elasticsearch Kibana on .NET Core – 132. Spotkanie WG.NET

Wizualizacja map w Elasticsearch i Kibana – GPS komunikacji miejskiej

Myślisz o analizie i wizualizacji danych geo? Czemu nie spróbować Elasticsearch? Tzw. ELK (Elasticsearch + Logstash + Kibana) to nie tylko baza NoSQL. Jest to cały system, który umożliwia przechowywanie, wyszukiwanie, analizę i wizualizację danych z dowolnego źródła w czasie rzeczywistym. W tym przypadku wykorzystamy otwarte dane lokalizacji komunikacji miejskiej w Warszawie. Wspomniałem o nich w tym artykule.

Czytaj dalej Wizualizacja map w Elasticsearch i Kibana – GPS komunikacji miejskiej

Kto najlepiej ćwierka? Podstawy Graphframes + Tweepy

Słyszałeś/aś o Apache Graphframes? Teoria grafów to nie tylko ich własności, ale i algorytmy. Przekształcenie danych do modelu grafowego umożliwia zastosowanie niektórych z nich. W tym wpisie pobierzemy dane „followersów” z Twittera i wykonamy parę prostych algorytmów w Graphframes w PySparku.

Czytaj dalej Kto najlepiej ćwierka? Podstawy Graphframes + Tweepy

Obliczanie prędkości w Apache Spark – GPS komunikacji miejskiej

W poprzednim poście utworzyliśmy strumień danych lokalizacji pojazdów komunikacji miejskiej na jednym z topiców w Apache Kafka. Teraz dorwiemy się do tego strumienia z poziomu Apache Spark, zapiszemy trochę danych na HDFS i zobaczymy czy da się coś z nimi zrobić.

Czytaj dalej Obliczanie prędkości w Apache Spark – GPS komunikacji miejskiej

Apache Airflow + Kafka – Zbieramy dane GPS komunikacji miejskiej

Dziś przyjrzymy się narzędziu, jakim jest Apache Airflow. Spróbujemy użyć dwóch operatorów i zasilić kafkę danymi z API. Przy okazji rozpoczynam taki „mini projekcik”. Nie wiem jak Tobie, ale najlepiej poznaję różne technologie poprzez praktykę.

Czytaj dalej Apache Airflow + Kafka – Zbieramy dane GPS komunikacji miejskiej