Deduplikacja zdarzeń w Logstash i Redis

Deduplikacja to W systemach rozproszonych występują tylko dwa trudne problemy:

2. Dostarczenie wiadomości dokładnie raz
1. Gwarantowana kolejność wiadomości
2. Dostarczenie wiadomości dokładnie raz.

Inny mi słowy: w tym wpisie zajmiemy się deduplikacją zdarzeń 😁. Ostatnio miałem z tym problem w SIEM’ie, więc padło na Logstash’a.

Czytaj dalej Deduplikacja zdarzeń w Logstash i Redis

Elasticsearch Runtime fields, albo analiza „polskiej szlachty” na podstawie danych z Facebook w Kibana

Elastic wprowadził mechanizm Runtime fields, a Facebook’owi przydarzył się wyciek. Jest to dobry pretekst, aby przetestować jedno i przyjrzeć się drugiemu 😁. Szczegóły o wycieku znajdziesz w artykule Niebezpiecznika.

Czytaj dalej Elasticsearch Runtime fields, albo analiza „polskiej szlachty” na podstawie danych z Facebook w Kibana

Apache Spark – 2 Kroki do Lepszej Utylizacji Zasobów

Chcemy, aby nasze aplikacje w Apache Spark wykorzystywały wszystkie przydzielone zasoby. Niestety nie jest to takie proste. Rozproszenie obliczeń niesie za sobą koszty zarządzania zadaniami, a same zadania mają wobec siebie zależności. Z jednej strony ogranicza nas CPU (szybkość obliczeń), z drugiej strony dyski i sieć. MapReduce poświęciłem dedykowany materiał wideo. W artykule dowiesz się jak w 2 prostych krokach poprawić utylizację zasobów w Apache Spark.

Czytaj dalej Apache Spark – 2 Kroki do Lepszej Utylizacji Zasobów

Kolekcja logów w .NET Core z Serilog do Elasticsearch [nagranie]

W grudniu podzieliłem się swoim doświadczeniem w ramach Wrocławskiej i Krakowskiej Grupy .NET. Zbieranie logów w aplikacji to ważny aspekt jej utrzymania. Przyśpiesza diagnostykę i pozwala wykryć wąskie gardła. W przypadku .NET Core mamy do dyspozycji bibliotekę Serilog w której w prosty sposób przekierujemy logi do klastra Elasticsearch.

Czytaj dalej Kolekcja logów w .NET Core z Serilog do Elasticsearch [nagranie]

Stream Processing – There’s no time like the present [nagranie]

Nagranie z mojego wystąpienia o przetwarzaniu strumieniowym w ramach DataOps Poland. Klasyczne podejście polegające na przetwarzaniu wsadowym nie zawsze się sprawdza. Wartość informacji maleje wraz z upływem czasu. Musimy wybrać kompromis pomiędzy szybkością, a dokładnością wyników. Z nagrania dowiesz się, dlaczego warto zainteresować się przetwarzaniem strumieniowym i jakie niesie ze sobą problemy.

Czytaj dalej Stream Processing – There’s no time like the present [nagranie]

Change Data Capture – Zmień Bazę W Strumień (Debezium)

Myślałeś/aś kiedyś o utworzeniu strumienia z operacji w bazie danych? W tym wpisie dowiesz się czym jest Change Data Capture i jak go wykorzystać planując architekturę naszego systemu. W części praktycznej sprawdzimy działanie Debezium na bazie MySQL

Czytaj dalej Change Data Capture – Zmień Bazę W Strumień (Debezium)

Jak postawić klaster Elasticsearch? Fragment Kursu Elastic Stack

Najwięcej z Elasticsearch nauczyłem się eksperymentując na klastrze. Nie potrzebujemy do tego farmy serwerów. Wystarczy nasz komputer i instalacja lokalnego klastra.

Czytaj dalej Jak postawić klaster Elasticsearch? Fragment Kursu Elastic Stack

Najprostszy sposób na Klaster Apache Spark (Standalone Spark Cluster)

Apache Spark potrafi pokonać wydajnością Pandas działając na pojedynczej maszynie, ale zaprojektowany został by działać w klastrze. Uruchomienie klastra może wydawać się trudne, ale w rzeczywistości to bułka z masłem. W tym wpisie dowiesz się jak uruchomić najprostszy z klastrów, czyli Standalone Spark Cluster.

Czytaj dalej Najprostszy sposób na Klaster Apache Spark (Standalone Spark Cluster)

Jak Używać Variables i XCom w Apache Airflow?

Mówi się, że Apache Airflow to CRON na sterydach. Zdobywa uznanie wśród narzędzi do orchestracji ETL’i. Harmonogramowanie, zarządzanie i monitorowanie zadań mu nie straszne. Podstawowym sposobem definiowania zadań są acyklicze grafy skierowane (DAG). Zadania w nich muszą wymieniać się informacjami. We wpisie dowiesz się jak używać Variables i XCom w Apache Airflow.

Czytaj dalej Jak Używać Variables i XCom w Apache Airflow?