Czytelny Kod Scala w Apache Spark (4 podejścia)

Jupyter i Apache Zeppelin to dobre miejsce na eksperymentowanie z danymi. Niestety, specyfika notebook’ów nie zachęca do organizacji kodu, a w tym jego dekompozycji i czytelności. Możemy przekopiować komórki do Intellij IDEA i zbudować JAR’a, ale efekt będzie taki sobie. W artykule dowiesz się jak napisać czytelny kod Scala Apache Spark w Intellij IDEA.

Czytaj dalej „Czytelny Kod Scala w Apache Spark (4 podejścia)”

Analiza danych z Twitter dla leni w Elastic Stack (Xbox VS PlayStation)

Dane z Twitter można pozyskać na wiele sposobów, ale komu chce się pisać kod 😉. Szczególnie taki, który będzie działał 24/7. W Elastic Stack można w prosty sposób zbierać i analizować dane z Twitter’a. Logstash ma gotowe wejście do zbierania strumienia tweet’ów. Kafka Connect omawiana w poprzednim artykule również ma taką opcję, jednak Logstash może wysyłać dane do wielu źródeł (w tym do Apache Kafka) i jest prostszy w obsłudze.

W artykule:

  • Zapis strumienia tweetów do Elasticsearch w Logstash’u
  • Wizualizacje w Kibana (Xbox vs PlayStation)
  • Usunięcie tagów HTML dla keyword’a mechanizmem normalizacji
Czytaj dalej „Analiza danych z Twitter dla leni w Elastic Stack (Xbox VS PlayStation)”