Apache Spark – 2 Kroki do Lepszej Utylizacji Zasob贸w

Chcemy, aby nasze aplikacje w Apache Spark wykorzystywa艂y wszystkie przydzielone zasoby. Niestety nie jest to takie proste. Rozproszenie oblicze艅 niesie za sob膮 koszty zarz膮dzania zadaniami, a same zadania maj膮 wobec siebie zale偶no艣ci. Z jednej strony ogranicza nas CPU (szybko艣膰 oblicze艅), z drugiej strony dyski i sie膰. MapReduce po艣wi臋ci艂em dedykowany materia艂 wideo. W artykule dowiesz si臋 jak w 2 prostych krokach poprawi膰 utylizacj臋 zasob贸w w Apache Spark.

Czytaj dalej 鈥濧pache Spark – 2 Kroki do Lepszej Utylizacji Zasob贸w鈥

Najprostszy spos贸b na Klaster Apache Spark (Standalone Spark Cluster)

Apache Spark potrafi pokona膰 wydajno艣ci膮 Pandas dzia艂aj膮c na pojedynczej maszynie, ale zaprojektowany zosta艂 by dzia艂a膰 w klastrze. Uruchomienie klastra mo偶e wydawa膰 si臋 trudne, ale w rzeczywisto艣ci to bu艂ka z mas艂em. W tym wpisie dowiesz si臋 jak uruchomi膰 najprostszy z klastr贸w, czyli Standalone Spark Cluster.

Czytaj dalej 鈥濶ajprostszy spos贸b na Klaster Apache Spark (Standalone Spark Cluster)鈥

Czytelny Kod Scala w Apache Spark (4 podej艣cia)

Jupyter i Apache Zeppelin to dobre miejsce na eksperymentowanie z danymi. Niestety, specyfika notebook’贸w nie zach臋ca do organizacji kodu, a w tym jego dekompozycji i czytelno艣ci. Mo偶emy przekopiowa膰 kom贸rki do Intellij IDEA i zbudowa膰 JAR’a, ale efekt b臋dzie taki sobie. W artykule dowiesz si臋 jak napisa膰 czytelny kod Scala Apache Spark w Intellij IDEA.

Czytaj dalej 鈥濩zytelny Kod Scala w Apache Spark (4 podej艣cia)鈥

PySpark ETL z MySQL i MongoDB do Cassandra

W Apache Spark/PySpark pos艂ugujemy si臋 abstrakcjami, a faktyczne przetwarzanie dokonywane jest dopiero gdy chcemy zmaterializowa膰 wynik operacji. Do dyspozycji mamy szereg bibliotek, kt贸rymi mo偶emy 艂膮czy膰 si臋 z r贸偶nymi bazami i systemami plik贸w. W tym artykule dowiesz si臋 jak po艂膮czy膰 dane z MySQL i MongoDB, a nast臋pnie zapisa膰 je w Apache Cassandra.

Czytaj dalej 鈥濸ySpark ETL z MySQL i MongoDB do Cassandra鈥

5 sposob贸w na lokalne 艣rodowisko Apache Spark

Apache Spark to jedna z najpopularniejszych platform do rozproszonego przetwarzania i analizy danych. Cho膰 kojarzona jest farm膮 serwer贸w, Hadoop’em i technologiami chmurowymi, z powodzeniem mo偶esz odpali膰 j膮 na swojej maszynie. W tym wpisie dowiesz si臋 kilku sposob贸w na konfiguracje deweloperskiego 艣rodowiska Apache Spark.

Czytaj dalej 鈥5 sposob贸w na lokalne 艣rodowisko Apache Spark鈥

Jak zacz膮膰 z Apache Spark i Cassandra

Apache Cassandra to specyficzna baza danych. Skaluje si臋 (uwaga) liniowo. Ma to swoj膮 cen臋: specyficzne modelowanie tabel, konfigurowalna sp贸jno艣膰 i ograniczona analityka. Apple wykonuje miliony operacji na sekund臋 na ponad 160 tys. instancjach Cassandry. Gromadzi przy tym ponad 100 PB danych. Ograniczon膮 analityk臋 mo偶na “wyleczy膰” wykorzystuj膮c Apache Spark i connector od DataStax i o tym jest ten wpis.

Czytaj dalej 鈥濲ak zacz膮膰 z Apache Spark i Cassandra鈥

MinIO – Big Data bez Hadoop/HDFS?

MinIO to rozproszony storage implementuj膮cy API AWS S3. Mo偶na go wdro偶y膰 na 艣rodowiskach on-premises. Jest przygotowany pod Kubernetes. Stanowi ciekaw膮 alternatyw臋 dla 艣rodowisk opartych o HDFS i reszt臋 ekosystemu Hadoop. W ko艅cu Kubernetes staje si臋 coraz ciekawsz膮 alternatyw膮 YARN-a dla Apache Spark. W tym wpisie zapoznamy si臋 z lokalnie postawionym MinIO na docker-compose i wykonamy kilka operacji w Sparku.

Czytaj dalej 鈥濵inIO – Big Data bez Hadoop/HDFS?鈥

Koalas, czyli PySpark w przebraniu Pandas

Jednym z podstawowych narz臋dzi Data Scientist jest Pandas. Niestety nadmiar danych mo偶e znacznie utrudni膰 nam zabaw臋. Dlatego powsta艂o Koalas. Biblioteka umo偶liwiaj膮ca korzystanie z Apache Spark w taki spos贸b, jakby艣my robili to za pomoc膮 Pandas.

Czytaj dalej 鈥濳oalas, czyli PySpark w przebraniu Pandas鈥

Dlaczego Elasticsearch k艂amie? Jak dzia艂a Elasticsearch?

Elasticsearch zaskakuje nas swoimi mo偶liwo艣ciami i szybko艣ci膮 dzia艂ania, ale czy zwracane wyniki s膮 prawid艂owe? W tym wpisie dowiesz si臋 jak Elasticsearch dzia艂a pod mask膮 i dlaczego zwracane agregacje s膮 pewnego rodzaju przybli偶eniem.

Czytaj dalej 鈥濪laczego Elasticsearch k艂amie? Jak dzia艂a Elasticsearch?鈥

Obliczanie pr臋dko艣ci w Apache Spark – GPS komunikacji miejskiej

W poprzednim po艣cie utworzyli艣my strumie艅 danych lokalizacji pojazd贸w komunikacji miejskiej na jednym z topic贸w w Apache Kafka. Teraz dorwiemy si臋 do tego strumienia z poziomu Apache Spark, zapiszemy troch臋 danych na HDFS i zobaczymy czy da si臋 co艣 z nimi zrobi膰.

Czytaj dalej 鈥濷bliczanie pr臋dko艣ci w Apache Spark – GPS komunikacji miejskiej鈥