Nagranie z mojego wystąpienia o przetwarzaniu strumieniowym w ramach DataOps Poland. Klasyczne podejście polegające na przetwarzaniu wsadowym nie zawsze się sprawdza. Wartość informacji maleje wraz z upływem czasu. Musimy wybrać kompromis pomiędzy szybkością, a dokładnością wyników. Z nagrania dowiesz się, dlaczego warto zainteresować się przetwarzaniem strumieniowym i jakie niesie ze sobą problemy.
Czytaj dalej Stream Processing – There’s no time like the present [nagranie]Tag: big data
Big Data w Cyberbezpieczeństwie (Podcast)
Miałem przyjemność być gościem podcastu Stacja IT. Zapraszam do przesłuchania, szczególnie jeśli interesuje Cię Big Data i/lub Cyberbezpieczeństwo.
https://stacja.it/podcast/2020-11-06-maciej-szymczyk-big-data-w-cyberbezpieczenstwie.html
Półtora miliarda haseł w Spark – część 1 – czyszczenie
Tym razem do piaskownicy wkracza Apache Spark. Zajmiemy się prostym, ale pokaźnym zbiorem maili i haseł z różnych wycieków danych. W tym przykładzie będę używał DataFrames w Spark 2.0. Środowisko na którym działałem to HDInsight na Azure.
Czytaj dalej Półtora miliarda haseł w Spark – część 1 – czyszczenieBig Data to 3 słowa
Co to jest w ogóle Big Data? Słyszymy o systemach, technologiach, rozwiązaniach… a nawet o systemach klasy Big Data. Jest to trochę takie słowo wytrych, buzzword, które nabrało popularności i się „sprzedaje”. Poniżej opisałem to co kryje się pod tym terminem według mnie.
Czytaj dalej Big Data to 3 słowa