Czytelny Kod Scala w Apache Spark (4 podej艣cia)

Jupyter i Apache Zeppelin to dobre miejsce na eksperymentowanie z danymi. Niestety, specyfika notebook’贸w nie zach臋ca do organizacji kodu, a w tym jego dekompozycji i czytelno艣ci. Mo偶emy przekopiowa膰 kom贸rki do Intellij IDEA i zbudowa膰 JAR’a, ale efekt b臋dzie taki sobie. W artykule dowiesz si臋 jak napisa膰 czytelny kod Scala Apache Spark w Intellij IDEA.

Czytaj dalej 鈥濩zytelny Kod Scala w Apache Spark (4 podej艣cia)鈥

Analiza danych z Twitter dla leni w Elastic Stack (Xbox VS PlayStation)

Dane z Twitter mo偶na pozyska膰 na wiele sposob贸w, ale komu chce si臋 pisa膰 kod 馃槈. Szczeg贸lnie taki, kt贸ry b臋dzie dzia艂a艂 24/7. W Elastic Stack mo偶na w prosty spos贸b zbiera膰 i analizowa膰 dane z Twitter’a. Logstash ma gotowe wej艣cie do zbierania strumienia tweet’贸w. Kafka Connect omawiana w poprzednim artykule r贸wnie偶 ma tak膮 opcj臋, jednak Logstash mo偶e wysy艂a膰 dane do wielu 藕r贸de艂 (w tym do Apache Kafka) i jest prostszy w obs艂udze.

W artykule:

  • Zapis strumienia tweet贸w do Elasticsearch w Logstash’u
  • Wizualizacje w Kibana (Xbox vs PlayStation)
  • Usuni臋cie tag贸w HTML dla keyword’a mechanizmem normalizacji
Czytaj dalej 鈥濧naliza danych z Twitter dla leni w Elastic Stack (Xbox VS PlayStation)鈥