Apache Spark to jedna z najpopularniejszych platform do rozproszonego przetwarzania i analizy danych. Choć kojarzona jest farmą serwerów, Hadoop’em i technologiami chmurowymi, z powodzeniem możesz odpalić ją na swojej maszynie. W tym wpisie dowiesz się kilku sposobów na konfiguracje deweloperskiego środowiska Apache Spark.
Czytaj dalej „5 sposobów na lokalne środowisko Apache Spark”Elastic SIEM w pigułce (część 1)
Środowiska IT robią się coraz większe, rozproszone i ciężkie do zarządzania. Wszystkie komponenty systemu trzeba zabezpieczyć i monitorować przed cyber zagrożeniami. Potrzebna jest skalowalna platforma, która potrafi magazynować i analizować logi, metryki oraz zdarzenia. Rozwiązania SIEM potrafią kosztować niemałe pieniądze. W tym wpisie przyjrzymy się darmowemu rozwiązaniu dostępnego w Elastic Stack, czyli Elastic SIEM.
Czytaj dalej „Elastic SIEM w pigułce (część 1)”Czemu Bazy NoSQL? (5 powodów)
Jak zacząć z Apache Spark i Cassandra
Apache Cassandra to specyficzna baza danych. Skaluje się (uwaga) liniowo. Ma to swoją cenę: specyficzne modelowanie tabel, konfigurowalna spójność i ograniczona analityka. Apple wykonuje miliony operacji na sekundę na ponad 160 tys. instancjach Cassandry. Gromadzi przy tym ponad 100 PB danych. Ograniczoną analitykę można “wyleczyć” wykorzystując Apache Spark i connector od DataStax i o tym jest ten wpis.
Czytaj dalej „Jak zacząć z Apache Spark i Cassandra”7 Powodów Dla Których Potrzebujesz Kolejki
MinIO – Big Data bez Hadoop/HDFS?
MinIO to rozproszony storage implementujący API AWS S3. Można go wdrożyć na środowiskach on-premises. Jest przygotowany pod Kubernetes. Stanowi ciekawą alternatywę dla środowisk opartych o HDFS i resztę ekosystemu Hadoop. W końcu Kubernetes staje się coraz ciekawszą alternatywą YARN-a dla Apache Spark. W tym wpisie zapoznamy się z lokalnie postawionym MinIO na docker-compose i wykonamy kilka operacji w Sparku.
Czytaj dalej „MinIO – Big Data bez Hadoop/HDFS?”Jak działa MapReduce?
Była mowa o HDFS. Teraz zajmiemy się tematem rozproszonego przetwarzania danych za pomocą MapReduce.
Prosty mechanizm, który zabezpieczy Ci kolektor logów np. Logstash
Planując system bierzemy pod uwagę ewentualne awarie (Design for Failure). W przypadku agregacji logów, oprócz rozwiązań typu Elasticsearch czy Splunk, korzystamy również z kolejek np. Apache Kafka. Działa w klastrze, pełni rolę bufora i pozwala na zastosowanie wielu konsumentów typu Logstash lub Fluentd. Czasami jednak zapominamy o zabezpieczeniu kolektora, który zasila kolejkę. W tym wpisie dowiesz się jak użyć keepalived, by zapewnić failover.
Czytaj dalej „Prosty mechanizm, który zabezpieczy Ci kolektor logów np. Logstash”Po co rozpraszać storage? Krótko o HDFS.
Po co rozpraszać storage? Dlaczego nie wystarczy nam macierz? Krótko o HDFS.
Koalas, czyli PySpark w przebraniu Pandas
Jednym z podstawowych narzędzi Data Scientist jest Pandas. Niestety nadmiar danych może znacznie utrudnić nam zabawę. Dlatego powstało Koalas. Biblioteka umożliwiająca korzystanie z Apache Spark w taki sposób, jakbyśmy robili to za pomocą Pandas.
Czytaj dalej „Koalas, czyli PySpark w przebraniu Pandas”