Jak Wyczy艣ci膰 Dane w Python Pandas – Pojazdy zarejestrowane w Polsce

Dzi臋ki projektowi Otwarte Dane mamy do dyspozycji 藕r贸d艂a udost臋pnione przez podmioty publiczne. W artykule przygotujemy i wyczy艣cimy Pojazdy zarejestrowane w Polsce w podziale na wojew贸dztwa za pomoc膮 Python i Pandas.

Czytaj dalej 鈥濲ak Wyczy艣ci膰 Dane w Python Pandas – Pojazdy zarejestrowane w Polsce鈥

10 najwa偶niejszych 藕r贸de艂 MITRE ATT&CK za pomoc膮 Pandas jedym klikiem

MITRE ATT&CK to 藕r贸d艂o wiedzy o taktykach i technikach adwersarzy. Jest wsp贸lnym j臋zykiem domenowym w 艣wiecie cyberbezpiecze艅stwa. Ka偶da organizacja jest inna, korzysta z innych system贸w operacyjnych i interesuje si臋 ni膮 inna grupa adwersarzy. W artykule wykorzystamy popularn膮 Python’ow膮 bibliotek臋 pandas i zrobimy prosty notebook.

Czytaj dalej 鈥10 najwa偶niejszych 藕r贸de艂 MITRE ATT&CK za pomoc膮 Pandas jedym klikiem鈥

Koalas, czyli PySpark w przebraniu Pandas

Jednym z podstawowych narz臋dzi Data Scientist jest Pandas. Niestety nadmiar danych mo偶e znacznie utrudni膰 nam zabaw臋. Dlatego powsta艂o Koalas. Biblioteka umo偶liwiaj膮ca korzystanie z Apache Spark w taki spos贸b, jakby艣my robili to za pomoc膮 Pandas.

Czytaj dalej 鈥濳oalas, czyli PySpark w przebraniu Pandas鈥

Spark i Elasticsearch? To tak mo偶na? elasticsearch-spark

Elasticsearch mo偶na lubi膰 lub nie. Fakty s膮 takie, 偶e robi robot臋. Razem z Kibana, Logstash i Beats pozwalaj膮 w prosty spos贸b zbiera膰 logi, metryki i przeprowadza膰 analizy w czasie rzeczywistym. Gdy potrzebujemy wi臋cej, mo偶emy chwyci膰 za inne narz臋dzia. W tym wpisie przyjrzymy si臋 jak po艂膮czy膰 Apache Spark i Elasticsearch.

Czytaj dalej 鈥濻park i Elasticsearch? To tak mo偶na? elasticsearch-spark鈥

Kto najlepiej 膰wierka? Podstawy Graphframes + Tweepy

S艂ysza艂e艣/a艣 o Apache Graphframes? Teoria graf贸w to nie tylko ich w艂asno艣ci, ale i algorytmy. Przekszta艂cenie danych do modelu grafowego umo偶liwia zastosowanie niekt贸rych z nich. W tym wpisie pobierzemy dane “followers贸w” z Twittera i wykonamy par臋 prostych algorytm贸w w Graphframes w PySparku.

Czytaj dalej 鈥濳to najlepiej 膰wierka? Podstawy Graphframes + Tweepy鈥

Apache Airflow + Kafka – Zbieramy dane GPS komunikacji miejskiej

Dzi艣 przyjrzymy si臋 narz臋dziu, jakim jest Apache Airflow. Spr贸bujemy u偶y膰 dw贸ch operator贸w i zasili膰 kafk臋 danymi z API. Przy okazji rozpoczynam taki “mini projekcik”. Nie wiem jak Tobie, ale najlepiej poznaj臋 r贸偶ne technologie poprzez praktyk臋.

Czytaj dalej 鈥濧pache Airflow + Kafka – Zbieramy dane GPS komunikacji miejskiej鈥

P贸艂tora miliarda hase艂 w Spark 鈥 cz臋艣膰 3 鈥 partycjonowanie danych

Do tej pory operacje na zbiorze maili i hase艂 zaspokaja艂y nasz膮 ciekawo艣膰. Teraz wytworzymy warto艣膰 biznesow膮 wykorzystuj膮c partycjonowanie danych. Na pewno woleliby艣my unikn膮膰 sytuacji w kt贸rej kto艣 korzystaj膮cy z naszego systemu u偶ywa has艂a kt贸re wyciek艂o.

Czytaj dalej 鈥濸贸艂tora miliarda hase艂 w Spark 鈥 cz臋艣膰 3 鈥 partycjonowanie danych鈥

P贸艂tora miliarda hase艂 w Spark 鈥 cz臋艣膰 2 鈥 formaty danych

W poprzedniej cz臋艣ci, po przygotowaniu danych w Apache Spark-u i zapisaniu ich w formacie Parquet, wida膰 by艂o spor膮 popraw臋 w czasie wykonania zapyta艅. Czy by艂o to konieczne? Jakie s膮 inne formaty danych i kt贸ry wypada korzystniej? Przekonajmy si臋.

Czytaj dalej 鈥濸贸艂tora miliarda hase艂 w Spark 鈥 cz臋艣膰 2 鈥 formaty danych鈥

Jak zosta膰 Ironmanem? Analiza CSV-ek w pandas

Mistrzostwa 艣wiata w Tri na dystansie Ironman za nami. Wsp贸艂zawodnictwo na Hawajach to marzenie ka偶dego ambitnego triathlonisty. Z tej okazji wzi膮艂em na warsztat wyniki zawod贸w triathlonowych na dystansie Ironman w latach 2005-2016 (436131 rekord贸w) znalezione na http://academictorrents.com. Do analizy wykorzysta艂em pythona, a wszczeg贸lno艣ci numpy, pandas oraz matplotlib.

Czytaj dalej 鈥濲ak zosta膰 Ironmanem? Analiza CSV-ek w pandas鈥