Elasticsearch można lubić lub nie. Fakty są takie, że robi robotę. Razem z Kibana, Logstash i Beats pozwalają w prosty sposób zbierać logi, metryki i przeprowadzać analizy w czasie rzeczywistym. Gdy potrzebujemy więcej, możemy chwycić za inne narzędzia. W tym wpisie przyjrzymy się jak połączyć Apache Spark i Elasticsearch.
Czytaj dalej „Spark i Elasticsearch? To tak można? elasticsearch-spark”Tag: spark
Obliczanie prędkości w Apache Spark – GPS komunikacji miejskiej
W poprzednim poście utworzyliśmy strumień danych lokalizacji pojazdów komunikacji miejskiej na jednym z topiców w Apache Kafka. Teraz dorwiemy się do tego strumienia z poziomu Apache Spark, zapiszemy trochę danych na HDFS i zobaczymy czy da się coś z nimi zrobić.
Czytaj dalej „Obliczanie prędkości w Apache Spark – GPS komunikacji miejskiej”Problem małych plików w HDFS
Korzystanie z HDFS bardzo przypomina korzystanie ze zwykłego systemu plików z użyciem terminala. Grupy, uprawnienia, pliki, foldery itp. Bawiąc się kolejnymi technologiami Big Data można zapomnieć się i potraktować HDFS jak zwykły dysk.
Czytaj dalej „Problem małych plików w HDFS”Półtora miliarda haseł w Spark – część 3 – partycjonowanie danych
Do tej pory operacje na zbiorze maili i haseł zaspokajały naszą ciekawość. Teraz wytworzymy wartość biznesową wykorzystując partycjonowanie danych. Na pewno wolelibyśmy uniknąć sytuacji w której ktoś korzystający z naszego systemu używa hasła które wyciekło.
Czytaj dalej „Półtora miliarda haseł w Spark – część 3 – partycjonowanie danych”Półtora miliarda haseł w Spark – część 1 – czyszczenie
Tym razem do piaskownicy wkracza Apache Spark. Zajmiemy się prostym, ale pokaźnym zbiorem maili i haseł z różnych wycieków danych. W tym przykładzie będę używał DataFrames w Spark 2.0. Środowisko na którym działałem to HDInsight na Azure.
Czytaj dalej „Półtora miliarda haseł w Spark – część 1 – czyszczenie”