Mistrzostwa świata w Tri na dystansie Ironman za nami. Współzawodnictwo na Hawajach to marzenie każdego ambitnego triathlonisty. Z tej okazji wziąłem na warsztat wyniki zawodów triathlonowych na dystansie Ironman w latach 2005-2016 (436131 rekordów) znalezione na http://academictorrents.com. Do analizy wykorzystałem pythona, a wszczególności numpy, pandas oraz matplotlib.
Czytaj dalej Jak zostać Ironmanem? Analiza CSV-ek w pandasCebula ma warstwy. Data Lake ma warstwy
W poprzednim wpisie wyjaśniłem na szybko co to Data Lake. Teraz dowiesz się z jakich warstw się składa i co się pod nimi kryje.
Czytaj dalej Cebula ma warstwy. Data Lake ma warstwyCzy słonie pływają? Kilka słów o Data Lake
W poprzednim wpisie (Big Data to 3 słowa) wspomniałem z jakimi wyzwaniami mierzy się Big Data. Dotyczy to również architektury. Wykorzystywana wcześniej EDW (Enterprise Data Warehouse) nie pasuje do nowych standardów. Opracowano nową architekturę o bardzo obrazowej nazwie Data Lake (dosłownie Jezioro Danych). Wyobraź sobie te wszystkie górskie potoki (nazwa strumień danych nie wygląda na przypadkową), które spływają do jeziorka z którego wszyscy korzystają… ale najpierw przyjrzyjmy się co było nie tak w EDW.
Czytaj dalej Czy słonie pływają? Kilka słów o Data LakeBig Data to 3 słowa
Co to jest w ogóle Big Data? Słyszymy o systemach, technologiach, rozwiązaniach… a nawet o systemach klasy Big Data. Jest to trochę takie słowo wytrych, buzzword, które nabrało popularności i się „sprzedaje”. Poniżej opisałem to co kryje się pod tym terminem według mnie.
Czytaj dalej Big Data to 3 słowa