Поисковые системы и общие репозитории
| Источник | Описание | Для чего лучше всего подходит | Ссылка |
|---|---|---|---|
| Google Dataset Search | Поисковая система, специально предназначенная для поиска наборов данных, размещенных на тысячах ресурсов по всему интернету. | Поиск данных практически на любую тему, особенно если вы не уверены, куда сначала обратиться. | Ссылка |
| Kaggle Datasets | Огромный, создаваемый сообществом репозиторий наборов данных. Это лучшее место для практики в науке о данных, где есть данные обо всем, от видеоигр до медицинских изображений. | Поиск чистых, популярных наборов данных, часто сопровождаемых блокнотами и обсуждениями сообщества для вдохновения. Отлично подходит для проектов по продажам видеоигр или рекомендации фильмов. | Ссылка |
| Data is Plural | Еженедельная рассылка с подобранным списком интересных, необычных и полезных наборов данных. Их архив — настоящая золотая жила уникальных находок. | Поиск уникального, неочевидного набора данных для проекта, который будет выделяться, например, для анализа тональности сабреддита. | Ссылка |
| Awesome Public Datasets | Хорошо поддерживаемый тематический список высококачественных открытых наборов данных, размещенный на GitHub. | Просмотр данных по категориям (например, биология, экономика, спорт) после того, как у вас есть тема. | Ссылка |
| Zenodo | Многопрофильный открытый репозиторий, поддерживаемый ЦЕРН. Исследователи из всех областей размещают здесь свои данные, делая их цитируемыми и доступными для повторного использования. | Поиск узкоспециализированных исследовательских данных, часто непосредственно из академических статей. | Ссылка |
| Harvard Dataverse | Бесплатный репозиторий данных, открытый для исследователей из всех дисциплин. Он содержит сотни тысяч наборов данных в области естественных и гуманитарных наук. | Аналогично Zenodo, отлично подходит для обнаружения академических и исследовательских наборов данных. | Ссылка |
Правительственные и международные организации
Эти источники надежны, хорошо документированы и часто огромны. Они идеально подходят для проектов, связанных с экономикой, демографией или глобальными тенденциями.
| Источник | Описание | Для чего лучше всего подходит | Ссылка |
|---|---|---|---|
| Data.gov | Главный портал открытых данных правительства США. Вы найдете данные о сельском хозяйстве, климате, образовании, энергетике и многом другом. | Проекты, ориентированные на США, особенно связанные с государственной политикой, экологическими данными или демографией. | Ссылка |
| World Bank Open Data | Свободный и открытый доступ к глобальным данным о развитии по таким темам, как бедность, здравоохранение и образование для стран по всему миру. | Проекты по международной экономике или любой анализ, требующий сравнения между странами. | Ссылка |
| IPUMS | Предоставляет интегрированные данные переписей и опросов со всего мира, с 1790 года по настоящее время. Требуется бесплатная регистрация. | Глубокий анализ демографических тенденций, исторические данные переписей и исследования в области социальных наук. | Ссылка |
| Our World in Data | Проект Оксфордского университета, представляющий исследования и данные о крупнейших проблемах мира. Они предоставляют наборы данных, лежащие в основе их визуализаций. | Проекты, посвященные глобальным проблемам, таким как бедность, изменение климата, пандемии и войны. | Ссылка |
Академические и специализированные репозитории
Для более структурированных, готовых к машинному обучению наборов данных и специализированных областей.
| Источник | Описание | Для чего лучше всего подходит | Ссылка |
|---|---|---|---|
| UCI Machine Learning Repository | Одна из старейших и самых известных коллекций наборов данных, специально предназначенных для машинного обучения. | Классические задачи машинного обучения и сравнение алгоритмов. Данные часто чистые и хорошо изученные. | Ссылка |
| Dryad | Курируемый цифровой репозиторий, который делает исследовательские данные из широкого круга академических публикаций доступными для обнаружения и повторного использования. | Поиск данных, непосредственно подтверждающих опубликованные исследовательские результаты в области наук о жизни, медицины и смежных областях. | Ссылка |
| Registry of Open Data on AWS | Сервис, который позволяет находить и обмениваться наборами данных, хранящимися в Amazon Web Services (AWS). Это полезно для очень больших наборов данных, которые вы предпочли бы не скачивать. | Работа с массивными геопространственными, геномными или климатическими данными в облаке. | Ссылка |
🔍 Источники для конкретных идей проектов
- Для проекта “Личный Spotify”: Нужно будет запросить свои собственные данные непосредственно у Spotify. Это уникальная форма “сбора данных”, которая учит вас конфиденциальности данных и работе с JSON-файлами.
- Для анализа тональности сабреддита: Можно использовать Reddit API (через PRAW) для сбора данных в реальном времени. Это отличное введение в работу с API.
- Для проекта о прогнозе погоды: Можно использовать бесплатный погодный API, например Open-Meteo (который даже не требует ключа!), чтобы автоматически собирать данные прогнозов и фактические данные, как упоминалось в моем предыдущем предложении.
- Для проекта демографического анализа: IPUMS или Data.gov идеально подойдут для получения качественных данных переписи населения.
- Для уникального “необычного” проекта: Data is Plural специально создан для этого. Можно найти наборы данных об использовании эмодзи, наблюдениях НЛО или исторических ценах на продукты.