Mówi się, że Apache Airflow to CRON na sterydach. Zdobywa uznanie wśród narzędzi do orchestracji ETL’i. Harmonogramowanie, zarządzanie i monitorowanie zadań mu nie straszne. Podstawowym sposobem definiowania zadań są acyklicze grafy skierowane (DAG). Zadania w nich muszą wymieniać się informacjami. We wpisie dowiesz się jak używać Variables i XCom w Apache Airflow.
Czytaj dalej „Jak Używać Variables i XCom w Apache Airflow?”Big Data w Cyberbezpieczeństwie (Podcast)
Miałem przyjemność być gościem podcastu Stacja IT. Zapraszam do przesłuchania, szczególnie jeśli interesuje Cię Big Data i/lub Cyberbezpieczeństwo.
https://stacja.it/podcast/2020-11-06-maciej-szymczyk-big-data-w-cyberbezpieczenstwie.html
Czytelny Kod Scala w Apache Spark (4 podejścia)
Jupyter i Apache Zeppelin to dobre miejsce na eksperymentowanie z danymi. Niestety, specyfika notebook’ów nie zachęca do organizacji kodu, a w tym jego dekompozycji i czytelności. Możemy przekopiować komórki do Intellij IDEA i zbudować JAR’a, ale efekt będzie taki sobie. W artykule dowiesz się jak napisać czytelny kod Scala Apache Spark w Intellij IDEA.
Czytaj dalej „Czytelny Kod Scala w Apache Spark (4 podejścia)”Analiza danych z Twitter dla leni w Elastic Stack (Xbox VS PlayStation)
Dane z Twitter można pozyskać na wiele sposobów, ale komu chce się pisać kod 😉. Szczególnie taki, który będzie działał 24/7. W Elastic Stack można w prosty sposób zbierać i analizować dane z Twitter’a. Logstash ma gotowe wejście do zbierania strumienia tweet’ów. Kafka Connect omawiana w poprzednim artykule również ma taką opcję, jednak Logstash może wysyłać dane do wielu źródeł (w tym do Apache Kafka) i jest prostszy w obsłudze.
W artykule:
- Zapis strumienia tweetów do Elasticsearch w Logstash’u
- Wizualizacje w Kibana (Xbox vs PlayStation)
- Usunięcie tagów HTML dla keyword’a mechanizmem normalizacji
Kafka Connect w pigułce
Kafka Connect to część platformy Apache Kafka. Służy do łączenia Kafki z zewnętrznymi serwisami takimi jak systemy plików lub bazy danych. W artykule dowiesz się jaki problem rozwiązuje i jak ją uruchomić.
Czytaj dalej „Kafka Connect w pigułce”Sztuczna inteligencja w służbie nauki i biznesu
Do 2025 r. Polska będzie potrzebować ok. 200 tys. specjalistów zajmujących się sztuczną inteligencją – wynika z danych ostatniej, siódmej edycji raportu Monitoring trendów w innowacyjności Polskiej Agencji Rozwoju Przedsiębiorczości.
Czytaj dalej „Sztuczna inteligencja w służbie nauki i biznesu”5 pułapek NoSQL
Nagrałem film, w którym mówię o zaletach baz NoSQL. Odzew był ciekawy, ale momentami miałem wrażenie, że nie wszyscy widzą dwie strony medalu. Fakty są takie, że na bazach NoSQL można się nieźle przejechać ?.
Czytaj dalej „5 pułapek NoSQL”PySpark ETL z MySQL i MongoDB do Cassandra
W Apache Spark/PySpark posługujemy się abstrakcjami, a faktyczne przetwarzanie dokonywane jest dopiero gdy chcemy zmaterializować wynik operacji. Do dyspozycji mamy szereg bibliotek, którymi możemy łączyć się z różnymi bazami i systemami plików. W tym artykule dowiesz się jak połączyć dane z MySQL i MongoDB, a następnie zapisać je w Apache Cassandra.
Czytaj dalej „PySpark ETL z MySQL i MongoDB do Cassandra”Elastic SIEM w pigułce (część 2)
Jest to kontynuacja poprzedniego wpisu. Tym razem przyjrzymy się zakładce Detections w Elastic SIEM. Naszym celem jest automatyzacja wykrywania IOC wykorzystując sprawdzone reguły. Przypomnijmy: Zainstalowaliśmy Elasticsearch + Kibana na jednej z maszyn. Monitorujemy maszynę z Ubuntu (Auditbeat, Filebeat, Packetbeat) i Windows 10 (Winlogbeat), choć w tym wpisie skupimy się na tej drugiej.
Czytaj dalej „Elastic SIEM w pigułce (część 2)”