Apache Airflow + Kafka – Zbieramy dane GPS komunikacji miejskiej

Dzi艣 przyjrzymy si臋 narz臋dziu, jakim jest Apache Airflow. Spr贸bujemy u偶y膰 dw贸ch operator贸w i zasili膰 kafk臋 danymi z API. Przy okazji rozpoczynam taki “mini projekcik”. Nie wiem jak Tobie, ale najlepiej poznaj臋 r贸偶ne technologie poprzez praktyk臋.

Czytaj dalej 鈥濧pache Airflow + Kafka – Zbieramy dane GPS komunikacji miejskiej鈥

Problem ma艂ych plik贸w w HDFS

Korzystanie z HDFS bardzo przypomina korzystanie ze zwyk艂ego systemu plik贸w z u偶yciem terminala. Grupy, uprawnienia, pliki, foldery itp. Bawi膮c si臋 kolejnymi technologiami Big Data mo偶na zapomnie膰 si臋 i potraktowa膰 HDFS jak zwyk艂y dysk.

Czytaj dalej 鈥濸roblem ma艂ych plik贸w w HDFS鈥

Sk膮d bra膰 dane? 11 藕r贸de艂 (w tym polskie)

Bawi膮c si臋 r贸偶nymi bibliotekami, frameworkami itp. potrzebujemy danych. Mo偶emy takie wygenerowa膰, ale efekt nie b臋dzie ten sam. Dane pochodz膮ce z rzeczywistego 藕r贸d艂a lepiej oddaj膮 r贸偶norodno艣膰 (jedna z V z kt贸rej sk艂ada si臋 Big Data). S膮 te偶 po prostu ciekawsze, trudniejsze i mog膮 by膰 zwi膮zane naszymi zainteresowaniami (np. triathlon)

Czytaj dalej 鈥濻k膮d bra膰 dane? 11 藕r贸de艂 (w tym polskie)鈥

P贸艂tora miliarda hase艂 w Spark 鈥 cz臋艣膰 3 鈥 partycjonowanie danych

Do tej pory operacje na zbiorze maili i hase艂 zaspokaja艂y nasz膮 ciekawo艣膰. Teraz wytworzymy warto艣膰 biznesow膮 wykorzystuj膮c partycjonowanie danych. Na pewno woleliby艣my unikn膮膰 sytuacji w kt贸rej kto艣 korzystaj膮cy z naszego systemu u偶ywa has艂a kt贸re wyciek艂o.

Czytaj dalej 鈥濸贸艂tora miliarda hase艂 w Spark 鈥 cz臋艣膰 3 鈥 partycjonowanie danych鈥

P贸艂tora miliarda hase艂 w Spark 鈥 cz臋艣膰 2 鈥 formaty danych

W poprzedniej cz臋艣ci, po przygotowaniu danych w Apache Spark-u i zapisaniu ich w formacie Parquet, wida膰 by艂o spor膮 popraw臋 w czasie wykonania zapyta艅. Czy by艂o to konieczne? Jakie s膮 inne formaty danych i kt贸ry wypada korzystniej? Przekonajmy si臋.

Czytaj dalej 鈥濸贸艂tora miliarda hase艂 w Spark 鈥 cz臋艣膰 2 鈥 formaty danych鈥