Dzięki projektowi Otwarte Dane mamy do dyspozycji źródła udostępnione przez podmioty publiczne. W artykule przygotujemy i wyczyścimy Pojazdy zarejestrowane w Polsce w podziale na województwa za pomocą Python i Pandas.
Czytaj dalej „Jak Wyczyścić Dane w Python Pandas – Pojazdy zarejestrowane w Polsce”Kategoria: Python
10 najważniejszych źródeł MITRE ATT&CK za pomocą Pandas jedym klikiem
MITRE ATT&CK to źródło wiedzy o taktykach i technikach adwersarzy. Jest wspólnym językiem domenowym w świecie cyberbezpieczeństwa. Każda organizacja jest inna, korzysta z innych systemów operacyjnych i interesuje się nią inna grupa adwersarzy. W artykule wykorzystamy popularną Python’ową bibliotekę pandas i zrobimy prosty notebook.
Czytaj dalej „10 najważniejszych źródeł MITRE ATT&CK za pomocą Pandas jedym klikiem”Koalas, czyli PySpark w przebraniu Pandas
Jednym z podstawowych narzędzi Data Scientist jest Pandas. Niestety nadmiar danych może znacznie utrudnić nam zabawę. Dlatego powstało Koalas. Biblioteka umożliwiająca korzystanie z Apache Spark w taki sposób, jakbyśmy robili to za pomocą Pandas.
Czytaj dalej „Koalas, czyli PySpark w przebraniu Pandas”Spark i Elasticsearch? To tak można? elasticsearch-spark
Elasticsearch można lubić lub nie. Fakty są takie, że robi robotę. Razem z Kibana, Logstash i Beats pozwalają w prosty sposób zbierać logi, metryki i przeprowadzać analizy w czasie rzeczywistym. Gdy potrzebujemy więcej, możemy chwycić za inne narzędzia. W tym wpisie przyjrzymy się jak połączyć Apache Spark i Elasticsearch.
Czytaj dalej „Spark i Elasticsearch? To tak można? elasticsearch-spark”Kto najlepiej ćwierka? Podstawy Graphframes + Tweepy
Słyszałeś/aś o Apache Graphframes? Teoria grafów to nie tylko ich własności, ale i algorytmy. Przekształcenie danych do modelu grafowego umożliwia zastosowanie niektórych z nich. W tym wpisie pobierzemy dane “followersów” z Twittera i wykonamy parę prostych algorytmów w Graphframes w PySparku.
Czytaj dalej „Kto najlepiej ćwierka? Podstawy Graphframes + Tweepy”Apache Airflow + Kafka – Zbieramy dane GPS komunikacji miejskiej
Dziś przyjrzymy się narzędziu, jakim jest Apache Airflow. Spróbujemy użyć dwóch operatorów i zasilić kafkę danymi z API. Przy okazji rozpoczynam taki “mini projekcik”. Nie wiem jak Tobie, ale najlepiej poznaję różne technologie poprzez praktykę.
Czytaj dalej „Apache Airflow + Kafka – Zbieramy dane GPS komunikacji miejskiej”Półtora miliarda haseł w Spark – część 3 – partycjonowanie danych
Do tej pory operacje na zbiorze maili i haseł zaspokajały naszą ciekawość. Teraz wytworzymy wartość biznesową wykorzystując partycjonowanie danych. Na pewno wolelibyśmy uniknąć sytuacji w której ktoś korzystający z naszego systemu używa hasła które wyciekło.
Czytaj dalej „Półtora miliarda haseł w Spark – część 3 – partycjonowanie danych”Półtora miliarda haseł w Spark – część 2 – formaty danych
W poprzedniej części, po przygotowaniu danych w Apache Spark-u i zapisaniu ich w formacie Parquet, widać było sporą poprawę w czasie wykonania zapytań. Czy było to konieczne? Jakie są inne formaty danych i który wypada korzystniej? Przekonajmy się.
Czytaj dalej „Półtora miliarda haseł w Spark – część 2 – formaty danych”Jak zostać Ironmanem? Analiza CSV-ek w pandas
Mistrzostwa świata w Tri na dystansie Ironman za nami. Współzawodnictwo na Hawajach to marzenie każdego ambitnego triathlonisty. Z tej okazji wziąłem na warsztat wyniki zawodów triathlonowych na dystansie Ironman w latach 2005-2016 (436131 rekordów) znalezione na http://academictorrents.com. Do analizy wykorzystałem pythona, a wszczególności numpy, pandas oraz matplotlib.
Czytaj dalej „Jak zostać Ironmanem? Analiza CSV-ek w pandas”