hdfs - Wiadro Danych

MinIO – Big Data bez Hadoop/HDFS?

MinIO to rozproszony storage implementujący API AWS S3. Można go wdrożyć na środowiskach on-premises. Jest przygotowany pod Kubernetes. Stanowi ciekawą alternatywę dla środowisk opartych o HDFS i resztę ekosystemu Hadoop. W końcu Kubernetes staje się coraz ciekawszą alternatywą YARN-a dla Apache Spark. W tym wpisie zapoznamy się z lokalnie postawionym MinIO na docker-compose i wykonamy kilka operacji w Sparku.

Czytaj dalej

Jak działa MapReduce?

Była mowa o HDFS. Teraz zajmiemy się tematem rozproszonego przetwarzania danych za pomocą MapReduce.

Po co rozpraszać storage? Krótko o HDFS.

Po co rozpraszać storage? Dlaczego nie wystarczy nam macierz? Krótko o HDFS.

Problem małych plików w HDFS

Korzystanie z HDFS bardzo przypomina korzystanie ze zwykłego systemu plików z użyciem terminala. Grupy, uprawnienia, pliki, foldery itp. Bawiąc się kolejnymi technologiami Big Data można zapomnieć się i potraktować HDFS jak zwykły dysk.

Czytaj dalej