big data - Wiadro Danych

Big Data + Cyberbezpieczeństwo = Data-Driven SOC

Jak pewnie wiesz, na co dzień łączę Big Data i Cybersecurity. Czy taka fuzja ma sens? Niektórzy nie do końca rozumieli czemu przechodzę do CSIRT’u. Przecież to różne bajki. Oj byli w błędzie… wolumen danych jest ogromny. Jest też sporo wyzwań. Zapraszam Cię do mojego wywodu na ten temat 😉.

Czytaj dalej

Stream Processing – There’s no time like the present [nagranie]

Nagranie z mojego wystąpienia o przetwarzaniu strumieniowym w ramach DataOps Poland. Klasyczne podejście polegające na przetwarzaniu wsadowym nie zawsze się sprawdza. Wartość informacji maleje wraz z upływem czasu. Musimy wybrać kompromis pomiędzy szybkością, a dokładnością wyników. Z nagrania dowiesz się, dlaczego warto zainteresować się przetwarzaniem strumieniowym i jakie niesie ze sobą problemy.

Czytaj dalej

Big Data w Cyberbezpieczeństwie (Podcast)

Miałem przyjemność być gościem podcastu Stacja IT. Zapraszam do przesłuchania, szczególnie jeśli interesuje Cię Big Data i/lub Cyberbezpieczeństwo.

https://stacja.it/podcast/2020-11-06-maciej-szymczyk-big-data-w-cyberbezpieczenstwie.html

Półtora miliarda haseł w Spark – część 1 – czyszczenie

Tym razem do piaskownicy wkracza Apache Spark. Zajmiemy się prostym, ale pokaźnym zbiorem maili i haseł z różnych wycieków danych. W tym przykładzie będę używał DataFrames w Spark 2.0. Środowisko na którym działałem to HDInsight na Azure.

Czytaj dalej

Big Data to 3 słowa

Co to jest w ogóle Big Data? Słyszymy o systemach, technologiach, rozwiązaniach… a nawet o systemach klasy Big Data. Jest to trochę takie słowo wytrych, buzzword, które nabrało popularności i się “sprzedaje”. Poniżej opisałem to co kryje się pod tym terminem według mnie.

Czytaj dalej