Jak zacz膮膰 z Apache Spark i Cassandra

Apache Cassandra to specyficzna baza danych. Skaluje si臋 (uwaga) liniowo. Ma to swoj膮 cen臋: specyficzne modelowanie tabel, konfigurowalna sp贸jno艣膰 i ograniczona analityka. Apple wykonuje miliony operacji na sekund臋 na ponad 160 tys. instancjach Cassandry. Gromadzi przy tym ponad 100 PB danych. Ograniczon膮 analityk臋 mo偶na “wyleczy膰” wykorzystuj膮c Apache Spark i connector od DataStax i o tym jest ten wpis.

Czytaj dalej 鈥濲ak zacz膮膰 z Apache Spark i Cassandra鈥

MinIO – Big Data bez Hadoop/HDFS?

MinIO to rozproszony storage implementuj膮cy API AWS S3. Mo偶na go wdro偶y膰 na 艣rodowiskach on-premises. Jest przygotowany pod Kubernetes. Stanowi ciekaw膮 alternatyw臋 dla 艣rodowisk opartych o HDFS i reszt臋 ekosystemu Hadoop. W ko艅cu Kubernetes staje si臋 coraz ciekawsz膮 alternatyw膮 YARN-a dla Apache Spark. W tym wpisie zapoznamy si臋 z lokalnie postawionym MinIO na docker-compose i wykonamy kilka operacji w Sparku.

Czytaj dalej 鈥濵inIO – Big Data bez Hadoop/HDFS?鈥

Prosty mechanizm, kt贸ry zabezpieczy Ci kolektor log贸w np. Logstash

Planuj膮c system bierzemy pod uwag臋 ewentualne awarie (Design for Failure). W przypadku agregacji log贸w, opr贸cz rozwi膮za艅 typu Elasticsearch czy Splunk, korzystamy r贸wnie偶 z kolejek np. Apache Kafka. Dzia艂a w klastrze, pe艂ni rol臋 bufora i pozwala na zastosowanie wielu konsument贸w typu Logstash lub Fluentd. Czasami jednak zapominamy o zabezpieczeniu kolektora, kt贸ry zasila kolejk臋. W tym wpisie dowiesz si臋 jak u偶y膰 keepalived, by zapewni膰 failover.

Czytaj dalej 鈥濸rosty mechanizm, kt贸ry zabezpieczy Ci kolektor log贸w np. Logstash鈥