Big Data + Cyberbezpieczeństwo = Data-Driven SOC

Jak pewnie wiesz, na co dzień łączę Big Data i Cybersecurity. Czy taka fuzja ma sens? Niektórzy nie do końca rozumieli czemu przechodzę do CSIRT’u. Przecież to różne bajki. Oj byli w błędzie… wolumen danych jest ogromny. Jest też sporo wyzwań. Zapraszam Cię do mojego wywodu na ten temat 😉.

Czytaj dalej „Big Data + Cyberbezpieczeństwo = Data-Driven SOC”

Stream Processing – There’s no time like the present [nagranie]

Nagranie z mojego wystąpienia o przetwarzaniu strumieniowym w ramach DataOps Poland. Klasyczne podejście polegające na przetwarzaniu wsadowym nie zawsze się sprawdza. Wartość informacji maleje wraz z upływem czasu. Musimy wybrać kompromis pomiędzy szybkością, a dokładnością wyników. Z nagrania dowiesz się, dlaczego warto zainteresować się przetwarzaniem strumieniowym i jakie niesie ze sobą problemy.

Czytaj dalej „Stream Processing – There’s no time like the present [nagranie]”

Półtora miliarda haseł w Spark – część 1 – czyszczenie

Tym razem do piaskownicy wkracza Apache Spark. Zajmiemy się prostym, ale pokaźnym zbiorem maili i haseł z różnych wycieków danych. W tym przykładzie będę używał DataFrames w Spark 2.0. Środowisko na którym działałem to HDInsight na Azure.

Czytaj dalej „Półtora miliarda haseł w Spark – część 1 – czyszczenie”