PySpark ETL z MySQL i MongoDB do Cassandra

W Apache Spark/PySpark posługujemy się abstrakcjami, a faktyczne przetwarzanie dokonywane jest dopiero gdy chcemy zmaterializować wynik operacji. Do dyspozycji mamy szereg bibliotek, którymi możemy łączyć się z różnymi bazami i systemami plików. W tym artykule dowiesz się jak połączyć dane z MySQL i MongoDB, a następnie zapisać je w Apache Cassandra.

Czytaj dalej „PySpark ETL z MySQL i MongoDB do Cassandra”

Jak zacząć z Apache Spark i Cassandra

Apache Cassandra to specyficzna baza danych. Skaluje się (uwaga) liniowo. Ma to swoją cenę: specyficzne modelowanie tabel, konfigurowalna spójność i ograniczona analityka. Apple wykonuje miliony operacji na sekundę na ponad 160 tys. instancjach Cassandry. Gromadzi przy tym ponad 100 PB danych. Ograniczoną analitykę można “wyleczyć” wykorzystując Apache Spark i connector od DataStax i o tym jest ten wpis.

Czytaj dalej „Jak zacząć z Apache Spark i Cassandra”

Apache Cassandra – Gdy Kasia gubi CQL-e

Mieliście kiedyś taką sytuację przy Apache Cassandra, że aplikacja robi UPDATE na bazie danych ale nigdzie nie ma śladu po tym UPDATE? Jak już jej trochę poużywałeś, to prawdopodobnie znasz temat. Jak dopiero z nią zaczynasz…

Czytaj dalej „Apache Cassandra – Gdy Kasia gubi CQL-e”