Półtora miliarda haseł w Spark – część 2 – formaty danych

W poprzedniej części, po przygotowaniu danych w Apache Spark-u i zapisaniu ich w formacie Parquet, widać było sporą poprawę w czasie wykonania zapytań. Czy było to konieczne? Jakie są inne formaty danych i który wypada korzystniej? Przekonajmy się.

Czytaj dalej „Półtora miliarda haseł w Spark – część 2 – formaty danych”