Koalas, czyli PySpark w przebraniu Pandas

Jednym z podstawowych narzędzi Data Scientist jest Pandas. Niestety nadmiar danych może znacznie utrudnić nam zabawę. Dlatego powstało Koalas. Biblioteka umożliwiająca korzystanie z Apache Spark w taki sposób, jakbyśmy robili to za pomocą Pandas.

Czytaj dalej Koalas, czyli PySpark w przebraniu Pandas

Jak zostać Ironmanem? Analiza CSV-ek w pandas

Mistrzostwa świata w Tri na dystansie Ironman za nami. Współzawodnictwo na Hawajach to marzenie każdego ambitnego triathlonisty. Z tej okazji wziąłem na warsztat wyniki zawodów triathlonowych na dystansie Ironman w latach 2005-2016 (436131 rekordów) znalezione na http://academictorrents.com. Do analizy wykorzystałem pythona, a wszczególności numpy, pandas oraz matplotlib.

Czytaj dalej Jak zostać Ironmanem? Analiza CSV-ek w pandas