MinIO to rozproszony storage implementujący API AWS S3. Można go wdrożyć na środowiskach on-premises. Jest przygotowany pod Kubernetes. Stanowi ciekawą alternatywę dla środowisk opartych o HDFS i resztę ekosystemu Hadoop. W końcu Kubernetes staje się coraz ciekawszą alternatywą YARN-a dla Apache Spark. W tym wpisie zapoznamy się z lokalnie postawionym MinIO na docker-compose i wykonamy kilka operacji w Sparku.
Czytaj dalej „MinIO – Big Data bez Hadoop/HDFS?”Tag: hdfs
Jak działa MapReduce?
Była mowa o HDFS. Teraz zajmiemy się tematem rozproszonego przetwarzania danych za pomocą MapReduce.
Po co rozpraszać storage? Krótko o HDFS.
Po co rozpraszać storage? Dlaczego nie wystarczy nam macierz? Krótko o HDFS.
Problem małych plików w HDFS
Korzystanie z HDFS bardzo przypomina korzystanie ze zwykłego systemu plików z użyciem terminala. Grupy, uprawnienia, pliki, foldery itp. Bawiąc się kolejnymi technologiami Big Data można zapomnieć się i potraktować HDFS jak zwykły dysk.
Czytaj dalej „Problem małych plików w HDFS”