Apache Airflow + Kafka – Zbieramy dane GPS komunikacji miejskiej

Dzi艣 przyjrzymy si臋 narz臋dziu, jakim jest Apache Airflow. Spr贸bujemy u偶y膰 dw贸ch operator贸w i zasili膰 kafk臋 danymi z API. Przy okazji rozpoczynam taki “mini projekcik”. Nie wiem jak Tobie, ale najlepiej poznaj臋 r贸偶ne technologie poprzez praktyk臋.

Czytaj dalej 鈥濧pache Airflow + Kafka – Zbieramy dane GPS komunikacji miejskiej鈥

Problem ma艂ych plik贸w w HDFS

Korzystanie z HDFS bardzo przypomina korzystanie ze zwyk艂ego systemu plik贸w z u偶yciem terminala. Grupy, uprawnienia, pliki, foldery itp. Bawi膮c si臋 kolejnymi technologiami Big Data mo偶na zapomnie膰 si臋 i potraktowa膰 HDFS jak zwyk艂y dysk.

Czytaj dalej 鈥濸roblem ma艂ych plik贸w w HDFS鈥

Sk膮d bra膰 dane? 11 藕r贸de艂 (w tym polskie)

Bawi膮c si臋 r贸偶nymi bibliotekami, frameworkami itp. potrzebujemy danych. Mo偶emy takie wygenerowa膰, ale efekt nie b臋dzie ten sam. Dane pochodz膮ce z rzeczywistego 藕r贸d艂a lepiej oddaj膮 r贸偶norodno艣膰 (jedna z V z kt贸rej sk艂ada si臋 Big Data). S膮 te偶 po prostu ciekawsze, trudniejsze i mog膮 by膰 zwi膮zane naszymi zainteresowaniami (np. triathlon)

Czytaj dalej 鈥濻k膮d bra膰 dane? 11 藕r贸de艂 (w tym polskie)鈥

P贸艂tora miliarda hase艂 w Spark 鈥 cz臋艣膰 3 鈥 partycjonowanie danych

Do tej pory operacje na zbiorze maili i hase艂 zaspokaja艂y nasz膮 ciekawo艣膰. Teraz wytworzymy warto艣膰 biznesow膮 wykorzystuj膮c partycjonowanie danych. Na pewno woleliby艣my unikn膮膰 sytuacji w kt贸rej kto艣 korzystaj膮cy z naszego systemu u偶ywa has艂a kt贸re wyciek艂o.

Czytaj dalej 鈥濸贸艂tora miliarda hase艂 w Spark 鈥 cz臋艣膰 3 鈥 partycjonowanie danych鈥

P贸艂tora miliarda hase艂 w Spark 鈥 cz臋艣膰 2 鈥 formaty danych

W poprzedniej cz臋艣ci, po przygotowaniu danych w Apache Spark-u i zapisaniu ich w formacie Parquet, wida膰 by艂o spor膮 popraw臋 w czasie wykonania zapyta艅. Czy by艂o to konieczne? Jakie s膮 inne formaty danych i kt贸ry wypada korzystniej? Przekonajmy si臋.

Czytaj dalej 鈥濸贸艂tora miliarda hase艂 w Spark 鈥 cz臋艣膰 2 鈥 formaty danych鈥

P贸艂tora miliarda hase艂 w Spark – cz臋艣膰 1 – czyszczenie

Tym razem do piaskownicy wkracza Apache Spark. Zajmiemy si臋 prostym, ale poka藕nym zbiorem maili i hase艂 z r贸偶nych wyciek贸w danych. W tym przyk艂adzie b臋d臋 u偶ywa艂 DataFrames w Spark 2.0. 艢rodowisko na kt贸rym dzia艂a艂em to HDInsight na Azure.

Czytaj dalej 鈥濸贸艂tora miliarda hase艂 w Spark – cz臋艣膰 1 – czyszczenie鈥

Apache Cassandra – Gdy Kasia gubi CQL-e

Mieli艣cie kiedy艣 tak膮 sytuacj臋 przy Apache Cassandra, 偶e aplikacja robi UPDATE na bazie danych ale nigdzie nie ma 艣ladu po tym UPDATE? Jak ju偶 jej troch臋 pou偶ywa艂e艣, to prawdopodobnie znasz temat. Jak dopiero z ni膮 zaczynasz…

Czytaj dalej 鈥濧pache Cassandra – Gdy Kasia gubi CQL-e鈥

Jak zosta膰 Ironmanem? Analiza CSV-ek w pandas

Mistrzostwa 艣wiata w Tri na dystansie Ironman za nami. Wsp贸艂zawodnictwo na Hawajach to marzenie ka偶dego ambitnego triathlonisty. Z tej okazji wzi膮艂em na warsztat wyniki zawod贸w triathlonowych na dystansie Ironman w latach 2005-2016 (436131 rekord贸w) znalezione na http://academictorrents.com. Do analizy wykorzysta艂em pythona, a wszczeg贸lno艣ci numpy, pandas oraz matplotlib.

Czytaj dalej 鈥濲ak zosta膰 Ironmanem? Analiza CSV-ek w pandas鈥

Czy s艂onie p艂ywaj膮? Kilka s艂贸w o Data Lake

W poprzednim wpisie (Big Data to 3 s艂owa) wspomnia艂em z jakimi wyzwaniami mierzy si臋 Big Data. Dotyczy to r贸wnie偶 architektury. Wykorzystywana wcze艣niej EDW (Enterprise Data Warehouse) nie pasuje do nowych standard贸w. Opracowano now膮 architektur臋 o bardzo obrazowej nazwie Data Lake (dos艂ownie Jezioro Danych). Wyobra藕 sobie te wszystkie g贸rskie potoki (nazwa strumie艅 danych nie wygl膮da na przypadkow膮), kt贸re sp艂ywaj膮 do jeziorka z kt贸rego wszyscy korzystaj膮… ale najpierw przyjrzyjmy si臋 co by艂o nie tak w EDW.

Czytaj dalej 鈥濩zy s艂onie p艂ywaj膮? Kilka s艂贸w o Data Lake鈥