Myślałeś/aś kiedyś o utworzeniu strumienia z operacji w bazie danych? W tym wpisie dowiesz się czym jest Change Data Capture i jak go wykorzystać planując architekturę naszego systemu. W części praktycznej sprawdzimy działanie Debezium na bazie MySQL
Czytaj dalej Change Data Capture – Zmień Bazę W Strumień (Debezium)Jak postawić klaster Elasticsearch? Fragment Kursu Elastic Stack
Najwięcej z Elasticsearch nauczyłem się eksperymentując na klastrze. Nie potrzebujemy do tego farmy serwerów. Wystarczy nasz komputer i instalacja lokalnego klastra.
Czytaj dalej Jak postawić klaster Elasticsearch? Fragment Kursu Elastic StackNajprostszy sposób na Klaster Apache Spark (Standalone Spark Cluster)
Apache Spark potrafi pokonać wydajnością Pandas działając na pojedynczej maszynie, ale zaprojektowany został by działać w klastrze. Uruchomienie klastra może wydawać się trudne, ale w rzeczywistości to bułka z masłem. W tym wpisie dowiesz się jak uruchomić najprostszy z klastrów, czyli Standalone Spark Cluster.
Czytaj dalej Najprostszy sposób na Klaster Apache Spark (Standalone Spark Cluster)Jak Używać Variables i XCom w Apache Airflow?
Mówi się, że Apache Airflow to CRON na sterydach. Zdobywa uznanie wśród narzędzi do orchestracji ETL’i. Harmonogramowanie, zarządzanie i monitorowanie zadań mu nie straszne. Podstawowym sposobem definiowania zadań są acyklicze grafy skierowane (DAG). Zadania w nich muszą wymieniać się informacjami. We wpisie dowiesz się jak używać Variables i XCom w Apache Airflow.
Czytaj dalej Jak Używać Variables i XCom w Apache Airflow?Big Data w Cyberbezpieczeństwie (Podcast)
Miałem przyjemność być gościem podcastu Stacja IT. Zapraszam do przesłuchania, szczególnie jeśli interesuje Cię Big Data i/lub Cyberbezpieczeństwo.
https://stacja.it/podcast/2020-11-06-maciej-szymczyk-big-data-w-cyberbezpieczenstwie.html
Czytelny Kod Scala w Apache Spark (4 podejścia)
Jupyter i Apache Zeppelin to dobre miejsce na eksperymentowanie z danymi. Niestety, specyfika notebook’ów nie zachęca do organizacji kodu, a w tym jego dekompozycji i czytelności. Możemy przekopiować komórki do Intellij IDEA i zbudować JAR’a, ale efekt będzie taki sobie. W artykule dowiesz się jak napisać czytelny kod Scala Apache Spark w Intellij IDEA.
Czytaj dalej Czytelny Kod Scala w Apache Spark (4 podejścia)Analiza danych z Twitter dla leni w Elastic Stack (Xbox VS PlayStation)
Dane z Twitter można pozyskać na wiele sposobów, ale komu chce się pisać kod
W artykule:
- Zapis strumienia tweetów do Elasticsearch w Logstash’u
- Wizualizacje w Kibana (Xbox vs PlayStation)
- Usunięcie tagów HTML dla keyword’a mechanizmem normalizacji
Kafka Connect w pigułce
Kafka Connect to część platformy Apache Kafka. Służy do łączenia Kafki z zewnętrznymi serwisami takimi jak systemy plików lub bazy danych. W artykule dowiesz się jaki problem rozwiązuje i jak ją uruchomić.
Czytaj dalej Kafka Connect w pigułceSztuczna inteligencja w służbie nauki i biznesu
Do 2025 r. Polska będzie potrzebować ok. 200 tys. specjalistów zajmujących się sztuczną inteligencją – wynika z danych ostatniej, siódmej edycji raportu Monitoring trendów w innowacyjności Polskiej Agencji Rozwoju Przedsiębiorczości.
Czytaj dalej Sztuczna inteligencja w służbie nauki i biznesu5 pułapek NoSQL
Nagrałem film, w którym mówię o zaletach baz NoSQL. Odzew był ciekawy, ale momentami miałem wrażenie, że nie wszyscy widzą dwie strony medalu. Fakty są takie, że na bazach NoSQL można się nieźle przejechać ?.
Czytaj dalej 5 pułapek NoSQL