Apache Cassandra to specyficzna baza danych. Skaluje się (uwaga) liniowo. Ma to swoją cenę: specyficzne modelowanie tabel, konfigurowalna spójność i ograniczona analityka. Apple wykonuje miliony operacji na sekundę na ponad 160 tys. instancjach Cassandry. Gromadzi przy tym ponad 100 PB danych. Ograniczoną analitykę można “wyleczyć” wykorzystując Apache Spark i connector od DataStax i o tym jest ten wpis.
Czytaj dalej „Jak zacząć z Apache Spark i Cassandra”Miesiąc: lipiec 2020
7 Powodów Dla Których Potrzebujesz Kolejki
MinIO – Big Data bez Hadoop/HDFS?
MinIO to rozproszony storage implementujący API AWS S3. Można go wdrożyć na środowiskach on-premises. Jest przygotowany pod Kubernetes. Stanowi ciekawą alternatywę dla środowisk opartych o HDFS i resztę ekosystemu Hadoop. W końcu Kubernetes staje się coraz ciekawszą alternatywą YARN-a dla Apache Spark. W tym wpisie zapoznamy się z lokalnie postawionym MinIO na docker-compose i wykonamy kilka operacji w Sparku.
Czytaj dalej „MinIO – Big Data bez Hadoop/HDFS?”Jak działa MapReduce?
Była mowa o HDFS. Teraz zajmiemy się tematem rozproszonego przetwarzania danych za pomocą MapReduce.
Prosty mechanizm, który zabezpieczy Ci kolektor logów np. Logstash
Planując system bierzemy pod uwagę ewentualne awarie (Design for Failure). W przypadku agregacji logów, oprócz rozwiązań typu Elasticsearch czy Splunk, korzystamy również z kolejek np. Apache Kafka. Działa w klastrze, pełni rolę bufora i pozwala na zastosowanie wielu konsumentów typu Logstash lub Fluentd. Czasami jednak zapominamy o zabezpieczeniu kolektora, który zasila kolejkę. W tym wpisie dowiesz się jak użyć keepalived, by zapewnić failover.
Czytaj dalej „Prosty mechanizm, który zabezpieczy Ci kolektor logów np. Logstash”Po co rozpraszać storage? Krótko o HDFS.
Po co rozpraszać storage? Dlaczego nie wystarczy nam macierz? Krótko o HDFS.