Wy艣lij alerty z Elastic SIEM do Discord za darmoszk臋 – Kafka Connect + Python

Wrzucenie alert贸w z Elastic Stack na Apache Kafka daje wiele nowych mo偶liwo艣ci. Mo偶emy wys艂a膰 notyfikacje na Discord. Wszelka automatyzacja i enrichment stoj膮 otworem. W artykule spr贸bujemy to zrobi膰 na darmowej licencji 馃か.

Czytaj dalej 鈥濿y艣lij alerty z Elastic SIEM do Discord za darmoszk臋 – Kafka Connect + Python鈥

Big Data + Cyberbezpiecze艅stwo = Data-Driven SOC

Jak pewnie wiesz, na co dzie艅 艂膮cz臋 Big Data i Cybersecurity. Czy taka fuzja ma sens? Niekt贸rzy nie do ko艅ca rozumieli czemu przechodz臋 do CSIRT’u. Przecie偶 to r贸偶ne bajki. Oj byli w b艂臋dzie… wolumen danych jest ogromny. Jest te偶 sporo wyzwa艅. Zapraszam Ci臋 do mojego wywodu na ten temat 馃槈.

Czytaj dalej 鈥濨ig Data + Cyberbezpiecze艅stwo = Data-Driven SOC鈥

ksqlDB – magia SQL w czasie rzeczywistym – cz臋艣膰 1

ksqlDB to rozwi膮zanie z rodziny Apache Kafka i Confluent. Pozwala na wykorzystanie j臋zyka SQL do definiowania zada艅 przetwarzania strumieniowego. Wpis ten zaczyna seri臋 o ksqlDB. Spr贸bujemy zrobi膰 co艣 fajnego na podstawie danych z Packetbeat’a (monitoring ruchu sieciowego) i zobaczymy jak to dalej si臋 rozwinie.

Czytaj dalej 鈥瀔sqlDB – magia SQL w czasie rzeczywistym – cz臋艣膰 1鈥

Deduplikacja zdarze艅 w Logstash i Redis

Deduplikacja to W systemach rozproszonych wyst臋puj膮 tylko dwa trudne problemy:

2. Dostarczenie wiadomo艣ci dok艂adnie raz
1. Gwarantowana kolejno艣膰 wiadomo艣ci
2. Dostarczenie wiadomo艣ci dok艂adnie raz.

Inny mi s艂owy: w tym wpisie zajmiemy si臋 deduplikacj膮 zdarze艅 馃榿. Ostatnio mia艂em z tym problem w SIEM’ie, wi臋c pad艂o na Logstash’a.

Czytaj dalej 鈥濪eduplikacja zdarze艅 w Logstash i Redis鈥

Apache Spark – 2 Kroki do Lepszej Utylizacji Zasob贸w

Chcemy, aby nasze aplikacje w Apache Spark wykorzystywa艂y wszystkie przydzielone zasoby. Niestety nie jest to takie proste. Rozproszenie oblicze艅 niesie za sob膮 koszty zarz膮dzania zadaniami, a same zadania maj膮 wobec siebie zale偶no艣ci. Z jednej strony ogranicza nas CPU (szybko艣膰 oblicze艅), z drugiej strony dyski i sie膰. MapReduce po艣wi臋ci艂em dedykowany materia艂 wideo. W artykule dowiesz si臋 jak w 2 prostych krokach poprawi膰 utylizacj臋 zasob贸w w Apache Spark.

Czytaj dalej 鈥濧pache Spark – 2 Kroki do Lepszej Utylizacji Zasob贸w鈥

Stream Processing – There’s no time like the present [nagranie]

Nagranie z mojego wyst膮pienia o przetwarzaniu strumieniowym w ramach DataOps Poland. Klasyczne podej艣cie polegaj膮ce na przetwarzaniu wsadowym nie zawsze si臋 sprawdza. Warto艣膰 informacji maleje wraz z up艂ywem czasu. Musimy wybra膰 kompromis pomi臋dzy szybko艣ci膮, a dok艂adno艣ci膮 wynik贸w. Z nagrania dowiesz si臋, dlaczego warto zainteresowa膰 si臋 przetwarzaniem strumieniowym i jakie niesie ze sob膮 problemy.

Czytaj dalej 鈥濻tream Processing – There’s no time like the present [nagranie]鈥

Change Data Capture – Zmie艅 Baz臋 W Strumie艅 (Debezium)

My艣la艂e艣/a艣 kiedy艣 o utworzeniu strumienia z operacji w bazie danych? W tym wpisie dowiesz si臋 czym jest Change Data Capture i jak go wykorzysta膰 planuj膮c architektur臋 naszego systemu. W cz臋艣ci praktycznej sprawdzimy dzia艂anie Debezium na bazie MySQL

Czytaj dalej 鈥濩hange Data Capture – Zmie艅 Baz臋 W Strumie艅 (Debezium)鈥

Najprostszy spos贸b na Klaster Apache Spark (Standalone Spark Cluster)

Apache Spark potrafi pokona膰 wydajno艣ci膮 Pandas dzia艂aj膮c na pojedynczej maszynie, ale zaprojektowany zosta艂 by dzia艂a膰 w klastrze. Uruchomienie klastra mo偶e wydawa膰 si臋 trudne, ale w rzeczywisto艣ci to bu艂ka z mas艂em. W tym wpisie dowiesz si臋 jak uruchomi膰 najprostszy z klastr贸w, czyli Standalone Spark Cluster.

Czytaj dalej 鈥濶ajprostszy spos贸b na Klaster Apache Spark (Standalone Spark Cluster)鈥

Jak U偶ywa膰 Variables i XCom w Apache Airflow?

M贸wi si臋, 偶e Apache Airflow to CRON na sterydach. Zdobywa uznanie w艣r贸d narz臋dzi do orchestracji ETL’i. Harmonogramowanie, zarz膮dzanie i monitorowanie zada艅 mu nie straszne. Podstawowym sposobem definiowania zada艅 s膮 acyklicze grafy skierowane (DAG). Zadania w nich musz膮 wymienia膰 si臋 informacjami. We wpisie dowiesz si臋 jak u偶ywa膰 Variables i XCom w Apache Airflow.

Czytaj dalej 鈥濲ak U偶ywa膰 Variables i XCom w Apache Airflow?鈥

Czytelny Kod Scala w Apache Spark (4 podej艣cia)

Jupyter i Apache Zeppelin to dobre miejsce na eksperymentowanie z danymi. Niestety, specyfika notebook’贸w nie zach臋ca do organizacji kodu, a w tym jego dekompozycji i czytelno艣ci. Mo偶emy przekopiowa膰 kom贸rki do Intellij IDEA i zbudowa膰 JAR’a, ale efekt b臋dzie taki sobie. W artykule dowiesz si臋 jak napisa膰 czytelny kod Scala Apache Spark w Intellij IDEA.

Czytaj dalej 鈥濩zytelny Kod Scala w Apache Spark (4 podej艣cia)鈥