Koalas, czyli PySpark w przebraniu Pandas

Jednym z podstawowych narzędzi Data Scientist jest Pandas. Niestety nadmiar danych może znacznie utrudnić nam zabawę. Dlatego powstało Koalas. Biblioteka umożliwiająca korzystanie z Apache Spark w taki sposób, jakbyśmy robili to za pomocą Pandas.

Czytaj dalej Koalas, czyli PySpark w przebraniu Pandas

Delta Lake w Pigułce (czyli o podróżach w czasie)

Delta Lake zdobywa ostatnio coraz większa popularność. Słychać o nim na konferencjach na całym świecie. W tym artykule przyjrzymy się jakie problemy rozwiązuje.

Czytaj dalej Delta Lake w Pigułce (czyli o podróżach w czasie)

Spark i Elasticsearch? To tak można? elasticsearch-spark

Elasticsearch można lubić lub nie. Fakty są takie, że robi robotę. Razem z Kibana, Logstash i Beats pozwalają w prosty sposób zbierać logi, metryki i przeprowadzać analizy w czasie rzeczywistym. Gdy potrzebujemy więcej, możemy chwycić za inne narzędzia. W tym wpisie przyjrzymy się jak połączyć Apache Spark i Elasticsearch.

Czytaj dalej Spark i Elasticsearch? To tak można? elasticsearch-spark

Półtora miliarda haseł w Spark – część 3 – partycjonowanie danych

Do tej pory operacje na zbiorze maili i haseł zaspokajały naszą ciekawość. Teraz wytworzymy wartość biznesową wykorzystując partycjonowanie danych. Na pewno wolelibyśmy uniknąć sytuacji w której ktoś korzystający z naszego systemu używa hasła które wyciekło.

Czytaj dalej Półtora miliarda haseł w Spark – część 3 – partycjonowanie danych