Stream Processing – There’s no time like the present [nagranie]

Nagranie z mojego wystąpienia o przetwarzaniu strumieniowym w ramach DataOps Poland. Klasyczne podejście polegające na przetwarzaniu wsadowym nie zawsze się sprawdza. Wartość informacji maleje wraz z upływem czasu. Musimy wybrać kompromis pomiędzy szybkością, a dokładnością wyników. Z nagrania dowiesz się, dlaczego warto zainteresować się przetwarzaniem strumieniowym i jakie niesie ze sobą problemy.

Czytaj dalej Stream Processing – There’s no time like the present [nagranie]

Półtora miliarda haseł w Spark – część 1 – czyszczenie

Tym razem do piaskownicy wkracza Apache Spark. Zajmiemy się prostym, ale pokaźnym zbiorem maili i haseł z różnych wycieków danych. W tym przykładzie będę używał DataFrames w Spark 2.0. Środowisko na którym działałem to HDInsight na Azure.

Czytaj dalej Półtora miliarda haseł w Spark – część 1 – czyszczenie