PySpark ETL z MySQL i MongoDB do Cassandra

W Apache Spark/PySpark pos艂ugujemy si臋 abstrakcjami, a faktyczne przetwarzanie dokonywane jest dopiero gdy chcemy zmaterializowa膰 wynik operacji. Do dyspozycji mamy szereg bibliotek, kt贸rymi mo偶emy 艂膮czy膰 si臋 z r贸偶nymi bazami i systemami plik贸w. W tym artykule dowiesz si臋 jak po艂膮czy膰 dane z MySQL i MongoDB, a nast臋pnie zapisa膰 je w Apache Cassandra.

Czytaj dalej 鈥濸ySpark ETL z MySQL i MongoDB do Cassandra鈥

Koalas, czyli PySpark w przebraniu Pandas

Jednym z podstawowych narz臋dzi Data Scientist jest Pandas. Niestety nadmiar danych mo偶e znacznie utrudni膰 nam zabaw臋. Dlatego powsta艂o Koalas. Biblioteka umo偶liwiaj膮ca korzystanie z Apache Spark w taki spos贸b, jakby艣my robili to za pomoc膮 Pandas.

Czytaj dalej 鈥濳oalas, czyli PySpark w przebraniu Pandas鈥

Delta Lake w Pigu艂ce (czyli o podr贸偶ach w czasie)

Delta Lake zdobywa ostatnio coraz wi臋ksza popularno艣膰. S艂ycha膰 o nim na konferencjach na ca艂ym 艣wiecie. W tym artykule przyjrzymy si臋 jakie problemy rozwi膮zuje.

Czytaj dalej 鈥濪elta Lake w Pigu艂ce (czyli o podr贸偶ach w czasie)鈥

Spark i Elasticsearch? To tak mo偶na? elasticsearch-spark

Elasticsearch mo偶na lubi膰 lub nie. Fakty s膮 takie, 偶e robi robot臋. Razem z Kibana, Logstash i Beats pozwalaj膮 w prosty spos贸b zbiera膰 logi, metryki i przeprowadza膰 analizy w czasie rzeczywistym. Gdy potrzebujemy wi臋cej, mo偶emy chwyci膰 za inne narz臋dzia. W tym wpisie przyjrzymy si臋 jak po艂膮czy膰 Apache Spark i Elasticsearch.

Czytaj dalej 鈥濻park i Elasticsearch? To tak mo偶na? elasticsearch-spark鈥

P贸艂tora miliarda hase艂 w Spark 鈥 cz臋艣膰 3 鈥 partycjonowanie danych

Do tej pory operacje na zbiorze maili i hase艂 zaspokaja艂y nasz膮 ciekawo艣膰. Teraz wytworzymy warto艣膰 biznesow膮 wykorzystuj膮c partycjonowanie danych. Na pewno woleliby艣my unikn膮膰 sytuacji w kt贸rej kto艣 korzystaj膮cy z naszego systemu u偶ywa has艂a kt贸re wyciek艂o.

Czytaj dalej 鈥濸贸艂tora miliarda hase艂 w Spark 鈥 cz臋艣膰 3 鈥 partycjonowanie danych鈥