Skąd brać dane? 11 źródeł (w tym polskie)

looking for data

Bawiąc się różnymi bibliotekami, frameworkami itp. potrzebujemy danych. Możemy takie wygenerować, ale efekt nie będzie ten sam. Dane pochodzące z rzeczywistego źródła lepiej oddają różnorodność (jedna z V z której składa się Big Data). Są też po prostu ciekawsze, trudniejsze i mogą być związane naszymi zainteresowaniami (np. triathlon)

Otwarte dane – czyli dane po warszawsku

Od strony wizualno/funkcjonalnej dramat, ale dane są całkiem ciekawe. Wymagane jest (darmowe) konto. Na moim celowniku są lokalizacje autobusów i tramwajów na żywo… o tym wkrótce ?

dane.gov.pl

Rządowa strona z publicznymi danymi. Ostatnio rzucił mi się w oczy zbiór zarejestrowanych aut w każdym z województw z CEPiKa.

Open Data

Portal nawiązuje do obecnie realizowanego przez Ministerstwo Cyfryzacji Programu Otwierania Danych Publicznych.

MovieLens

„Klasyka kina akcji”. Chyba najczęściej wykorzystywany zbiór danych w przykładach i szkoleniach.

Academic Torrents

Niech nazwa Cie nie zwiedzie. To nic nielegalnego ?

Dostawcy chmury publicznej

Wielka trójca chmury na świecie udostępnia otwarte dane.

Github

Na Githubie znajdzie się sporo repozytoriów agregujących otwarte zbiory. Poniżej 3-ka która wpadła mi w oko.

Reddit

Na Reddit-cie jest osobny wątek poświęcony zbiorom danych.

Data World

Wymagana jest rejestracja, a wyszukiwarka mogła by być bardziej rozbudowana.

Twitter

Na pewno znajdziesz zastosowanie dla strumienia tweetów. W pythonie można użyć biblioteki tweepy.

Scraping

Niestety nie zawsze czeka na nas gotowy plik do ściągnięcia i musimy sami kombinować. Dane możemy pobierać ze stron internetowych. Możemy dłubać ręcznie lub napisać program który zrobi to za nas. Jakiś czas temu testowałem narzędzie Octoparse i w wersji darmowej całkiem nieźle pobierało dane z otomoto.

EDIT: (zaproponowane przez czytelników)

Dump StackOverflow

Google Dataset Search

Kaggle

4 myśli w temacie “Skąd brać dane? 11 źródeł (w tym polskie)”

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *