Tym razem do piaskownicy wkracza Apache Spark. Zajmiemy się prostym, ale pokaźnym zbiorem maili i haseł z różnych wycieków danych. W tym przykładzie będę używał DataFrames w Spark 2.0. Środowisko na którym działałem to HDInsight na Azure.
Czytaj dalej „Półtora miliarda haseł w Spark – część 1 – czyszczenie”Miesiąc: październik 2019
Apache Cassandra – Gdy Kasia gubi CQL-e
Mieliście kiedyś taką sytuację przy Apache Cassandra, że aplikacja robi UPDATE na bazie danych ale nigdzie nie ma śladu po tym UPDATE? Jak już jej trochę poużywałeś, to prawdopodobnie znasz temat. Jak dopiero z nią zaczynasz…
Czytaj dalej „Apache Cassandra – Gdy Kasia gubi CQL-e”Jak zostać Ironmanem? Analiza CSV-ek w pandas
Mistrzostwa świata w Tri na dystansie Ironman za nami. Współzawodnictwo na Hawajach to marzenie każdego ambitnego triathlonisty. Z tej okazji wziąłem na warsztat wyniki zawodów triathlonowych na dystansie Ironman w latach 2005-2016 (436131 rekordów) znalezione na http://academictorrents.com. Do analizy wykorzystałem pythona, a wszczególności numpy, pandas oraz matplotlib.
Czytaj dalej „Jak zostać Ironmanem? Analiza CSV-ek w pandas”Cebula ma warstwy. Data Lake ma warstwy
W poprzednim wpisie wyjaśniłem na szybko co to Data Lake. Teraz dowiesz się z jakich warstw się składa i co się pod nimi kryje.
Czytaj dalej „Cebula ma warstwy. Data Lake ma warstwy”Czy słonie pływają? Kilka słów o Data Lake
W poprzednim wpisie (Big Data to 3 słowa) wspomniałem z jakimi wyzwaniami mierzy się Big Data. Dotyczy to również architektury. Wykorzystywana wcześniej EDW (Enterprise Data Warehouse) nie pasuje do nowych standardów. Opracowano nową architekturę o bardzo obrazowej nazwie Data Lake (dosłownie Jezioro Danych). Wyobraź sobie te wszystkie górskie potoki (nazwa strumień danych nie wygląda na przypadkową), które spływają do jeziorka z którego wszyscy korzystają… ale najpierw przyjrzyjmy się co było nie tak w EDW.
Czytaj dalej „Czy słonie pływają? Kilka słów o Data Lake”