PySpark ETL z MySQL i MongoDB do Cassandra

W Apache Spark/PySpark pos艂ugujemy si臋 abstrakcjami, a faktyczne przetwarzanie dokonywane jest dopiero gdy chcemy zmaterializowa膰 wynik operacji. Do dyspozycji mamy szereg bibliotek, kt贸rymi mo偶emy 艂膮czy膰 si臋 z r贸偶nymi bazami i systemami plik贸w. W tym artykule dowiesz si臋 jak po艂膮czy膰 dane z MySQL i MongoDB, a nast臋pnie zapisa膰 je w Apache Cassandra.

Czytaj dalej 鈥濸ySpark ETL z MySQL i MongoDB do Cassandra鈥

Jak zacz膮膰 z Apache Spark i Cassandra

Apache Cassandra to specyficzna baza danych. Skaluje si臋 (uwaga) liniowo. Ma to swoj膮 cen臋: specyficzne modelowanie tabel, konfigurowalna sp贸jno艣膰 i ograniczona analityka. Apple wykonuje miliony operacji na sekund臋 na ponad 160 tys. instancjach Cassandry. Gromadzi przy tym ponad 100 PB danych. Ograniczon膮 analityk臋 mo偶na “wyleczy膰” wykorzystuj膮c Apache Spark i connector od DataStax i o tym jest ten wpis.

Czytaj dalej 鈥濲ak zacz膮膰 z Apache Spark i Cassandra鈥

Apache Cassandra – Gdy Kasia gubi CQL-e

Mieli艣cie kiedy艣 tak膮 sytuacj臋 przy Apache Cassandra, 偶e aplikacja robi UPDATE na bazie danych ale nigdzie nie ma 艣ladu po tym UPDATE? Jak ju偶 jej troch臋 pou偶ywa艂e艣, to prawdopodobnie znasz temat. Jak dopiero z ni膮 zaczynasz…

Czytaj dalej 鈥濧pache Cassandra – Gdy Kasia gubi CQL-e鈥