Bawiąc się różnymi bibliotekami, frameworkami itp. potrzebujemy danych. Możemy takie wygenerować, ale efekt nie będzie ten sam. Dane pochodzące z rzeczywistego źródła lepiej oddają różnorodność (jedna z V z której składa się Big Data). Są też po prostu ciekawsze, trudniejsze i mogą być związane naszymi zainteresowaniami (np. triathlon)
Otwarte dane – czyli dane po warszawsku
Od strony wizualno/funkcjonalnej dramat, ale dane są całkiem ciekawe. Wymagane jest (darmowe) konto. Na moim celowniku są lokalizacje autobusów i tramwajów na żywo… o tym wkrótce ?
dane.gov.pl
Rządowa strona z publicznymi danymi. Ostatnio rzucił mi się w oczy zbiór zarejestrowanych aut w każdym z województw z CEPiKa.
Open Data
Portal nawiązuje do obecnie realizowanego przez Ministerstwo Cyfryzacji Programu Otwierania Danych Publicznych.
MovieLens
“Klasyka kina akcji”. Chyba najczęściej wykorzystywany zbiór danych w przykładach i szkoleniach.
Academic Torrents
Niech nazwa Cie nie zwiedzie. To nic nielegalnego ?
Dostawcy chmury publicznej
Wielka trójca chmury na świecie udostępnia otwarte dane.
Github
Na Githubie znajdzie się sporo repozytoriów agregujących otwarte zbiory. Poniżej 3-ka która wpadła mi w oko.
- https://github.com/awesomedata/awesome-public-datasets
- https://github.com/DataHackIL/DataSets
- https://github.com/jivoi/awesome-ml-for-cybersecurity
Na Reddit-cie jest osobny wątek poświęcony zbiorom danych.
Data World
Wymagana jest rejestracja, a wyszukiwarka mogła by być bardziej rozbudowana.
Na pewno znajdziesz zastosowanie dla strumienia tweetów. W pythonie można użyć biblioteki tweepy.
Scraping
Niestety nie zawsze czeka na nas gotowy plik do ściągnięcia i musimy sami kombinować. Dane możemy pobierać ze stron internetowych. Możemy dłubać ręcznie lub napisać program który zrobi to za nas. Jakiś czas temu testowałem narzędzie Octoparse i w wersji darmowej całkiem nieźle pobierało dane z otomoto.
EDIT: (zaproponowane przez czytelników)
Nieprzebranym źródłem danych jest też kaggle.com