Поисковые системы и общие репозитории

ИсточникОписаниеДля чего лучше всего подходитСсылка
Google Dataset SearchПоисковая система, специально предназначенная для поиска наборов данных, размещенных на тысячах ресурсов по всему интернету.Поиск данных практически на любую тему, особенно если вы не уверены, куда сначала обратиться.Ссылка
Kaggle DatasetsОгромный, создаваемый сообществом репозиторий наборов данных. Это лучшее место для практики в науке о данных, где есть данные обо всем, от видеоигр до медицинских изображений.Поиск чистых, популярных наборов данных, часто сопровождаемых блокнотами и обсуждениями сообщества для вдохновения. Отлично подходит для проектов по продажам видеоигр или рекомендации фильмов.Ссылка
Data is PluralЕженедельная рассылка с подобранным списком интересных, необычных и полезных наборов данных. Их архив — настоящая золотая жила уникальных находок.Поиск уникального, неочевидного набора данных для проекта, который будет выделяться, например, для анализа тональности сабреддита.Ссылка
Awesome Public DatasetsХорошо поддерживаемый тематический список высококачественных открытых наборов данных, размещенный на GitHub.Просмотр данных по категориям (например, биология, экономика, спорт) после того, как у вас есть тема.Ссылка
ZenodoМногопрофильный открытый репозиторий, поддерживаемый ЦЕРН. Исследователи из всех областей размещают здесь свои данные, делая их цитируемыми и доступными для повторного использования.Поиск узкоспециализированных исследовательских данных, часто непосредственно из академических статей.Ссылка
Harvard DataverseБесплатный репозиторий данных, открытый для исследователей из всех дисциплин. Он содержит сотни тысяч наборов данных в области естественных и гуманитарных наук.Аналогично Zenodo, отлично подходит для обнаружения академических и исследовательских наборов данных.Ссылка

Правительственные и международные организации

Эти источники надежны, хорошо документированы и часто огромны. Они идеально подходят для проектов, связанных с экономикой, демографией или глобальными тенденциями.

ИсточникОписаниеДля чего лучше всего подходитСсылка
Data.govГлавный портал открытых данных правительства США. Вы найдете данные о сельском хозяйстве, климате, образовании, энергетике и многом другом.Проекты, ориентированные на США, особенно связанные с государственной политикой, экологическими данными или демографией.Ссылка
World Bank Open DataСвободный и открытый доступ к глобальным данным о развитии по таким темам, как бедность, здравоохранение и образование для стран по всему миру.Проекты по международной экономике или любой анализ, требующий сравнения между странами.Ссылка
IPUMSПредоставляет интегрированные данные переписей и опросов со всего мира, с 1790 года по настоящее время. Требуется бесплатная регистрация.Глубокий анализ демографических тенденций, исторические данные переписей и исследования в области социальных наук.Ссылка
Our World in DataПроект Оксфордского университета, представляющий исследования и данные о крупнейших проблемах мира. Они предоставляют наборы данных, лежащие в основе их визуализаций.Проекты, посвященные глобальным проблемам, таким как бедность, изменение климата, пандемии и войны.Ссылка

Академические и специализированные репозитории

Для более структурированных, готовых к машинному обучению наборов данных и специализированных областей.

ИсточникОписаниеДля чего лучше всего подходитСсылка
UCI Machine Learning RepositoryОдна из старейших и самых известных коллекций наборов данных, специально предназначенных для машинного обучения.Классические задачи машинного обучения и сравнение алгоритмов. Данные часто чистые и хорошо изученные.Ссылка
DryadКурируемый цифровой репозиторий, который делает исследовательские данные из широкого круга академических публикаций доступными для обнаружения и повторного использования.Поиск данных, непосредственно подтверждающих опубликованные исследовательские результаты в области наук о жизни, медицины и смежных областях.Ссылка
Registry of Open Data on AWSСервис, который позволяет находить и обмениваться наборами данных, хранящимися в Amazon Web Services (AWS). Это полезно для очень больших наборов данных, которые вы предпочли бы не скачивать.Работа с массивными геопространственными, геномными или климатическими данными в облаке.Ссылка

🔍 Источники для конкретных идей проектов

  • Для проекта “Личный Spotify”: Нужно будет запросить свои собственные данные непосредственно у Spotify. Это уникальная форма “сбора данных”, которая учит вас конфиденциальности данных и работе с JSON-файлами.
  • Для анализа тональности сабреддита: Можно использовать Reddit API (через PRAW) для сбора данных в реальном времени. Это отличное введение в работу с API.
  • Для проекта о прогнозе погоды: Можно использовать бесплатный погодный API, например Open-Meteo (который даже не требует ключа!), чтобы автоматически собирать данные прогнозов и фактические данные, как упоминалось в моем предыдущем предложении.
  • Для проекта демографического анализа: IPUMS или Data.gov идеально подойдут для получения качественных данных переписи населения.
  • Для уникального “необычного” проекта: Data is Plural специально создан для этого. Можно найти наборы данных об использовании эмодзи, наблюдениях НЛО или исторических ценах на продукты.