Do tej pory operacje na zbiorze maili i haseł zaspokajały naszą ciekawość. Teraz wytworzymy wartość biznesową wykorzystując partycjonowanie danych. Na pewno wolelibyśmy uniknąć sytuacji w której ktoś korzystający z naszego systemu używa hasła które wyciekło.
Czytaj dalej „Półtora miliarda haseł w Spark – część 3 – partycjonowanie danych”Półtora miliarda haseł w Spark – część 2 – formaty danych
W poprzedniej części, po przygotowaniu danych w Apache Spark-u i zapisaniu ich w formacie Parquet, widać było sporą poprawę w czasie wykonania zapytań. Czy było to konieczne? Jakie są inne formaty danych i który wypada korzystniej? Przekonajmy się.
Czytaj dalej „Półtora miliarda haseł w Spark – część 2 – formaty danych”Półtora miliarda haseł w Spark – część 1 – czyszczenie
Tym razem do piaskownicy wkracza Apache Spark. Zajmiemy się prostym, ale pokaźnym zbiorem maili i haseł z różnych wycieków danych. W tym przykładzie będę używał DataFrames w Spark 2.0. Środowisko na którym działałem to HDInsight na Azure.
Czytaj dalej „Półtora miliarda haseł w Spark – część 1 – czyszczenie”Apache Cassandra – Gdy Kasia gubi CQL-e
Mieliście kiedyś taką sytuację przy Apache Cassandra, że aplikacja robi UPDATE na bazie danych ale nigdzie nie ma śladu po tym UPDATE? Jak już jej trochę poużywałeś, to prawdopodobnie znasz temat. Jak dopiero z nią zaczynasz…
Czytaj dalej „Apache Cassandra – Gdy Kasia gubi CQL-e”Jak zostać Ironmanem? Analiza CSV-ek w pandas
Mistrzostwa świata w Tri na dystansie Ironman za nami. Współzawodnictwo na Hawajach to marzenie każdego ambitnego triathlonisty. Z tej okazji wziąłem na warsztat wyniki zawodów triathlonowych na dystansie Ironman w latach 2005-2016 (436131 rekordów) znalezione na http://academictorrents.com. Do analizy wykorzystałem pythona, a wszczególności numpy, pandas oraz matplotlib.
Czytaj dalej „Jak zostać Ironmanem? Analiza CSV-ek w pandas”Cebula ma warstwy. Data Lake ma warstwy
W poprzednim wpisie wyjaśniłem na szybko co to Data Lake. Teraz dowiesz się z jakich warstw się składa i co się pod nimi kryje.
Czytaj dalej „Cebula ma warstwy. Data Lake ma warstwy”Czy słonie pływają? Kilka słów o Data Lake
W poprzednim wpisie (Big Data to 3 słowa) wspomniałem z jakimi wyzwaniami mierzy się Big Data. Dotyczy to również architektury. Wykorzystywana wcześniej EDW (Enterprise Data Warehouse) nie pasuje do nowych standardów. Opracowano nową architekturę o bardzo obrazowej nazwie Data Lake (dosłownie Jezioro Danych). Wyobraź sobie te wszystkie górskie potoki (nazwa strumień danych nie wygląda na przypadkową), które spływają do jeziorka z którego wszyscy korzystają… ale najpierw przyjrzyjmy się co było nie tak w EDW.
Czytaj dalej „Czy słonie pływają? Kilka słów o Data Lake”Big Data to 3 słowa
Co to jest w ogóle Big Data? Słyszymy o systemach, technologiach, rozwiązaniach… a nawet o systemach klasy Big Data. Jest to trochę takie słowo wytrych, buzzword, które nabrało popularności i się “sprzedaje”. Poniżej opisałem to co kryje się pod tym terminem według mnie.
Czytaj dalej „Big Data to 3 słowa”