8 лучших бесплатных источников наборов данных для проектов в области науки о данных

Опубликовано: 6 Июня, 2021

Вы думали, что данные предназначены только для больших компаний и корпораций, чтобы анализировать и получать бизнес-идеи? Нет, данные - это тоже весело! Нет ничего интереснее, чем анализ набора данных, чтобы найти корреляции между данными и получить уникальную информацию. Это почти похоже на загадочную игру, в которой данные - это головоломка, которую вам нужно решить! И это еще более увлекательно, когда вам нужно найти лучший набор данных для проекта Data Science, который вы хотите реализовать. В конце концов, если данные плохие, у вашего проекта тоже нет шансов на успех.

К счастью, существует множество онлайн-источников данных, где вы можете получить бесплатные наборы данных для использования в своем проекте. В этой статье мы упомянули некоторые из этих источников данных, которые вы можете скачать и использовать бесплатно. Итак, хотите ли вы создать визуализацию данных, очистку данных, машинное обучение или любой другой тип проекта, для вас найдется набор данных!

1. Общедоступные наборы данных Google Cloud

Google - это не просто поисковая система, это гораздо больше! Существует множество общедоступных наборов данных, к которым вы можете получить доступ в облаке Google и проанализировать их, чтобы получить новые идеи из этих данных. Существует более 100 наборов данных, и все они размещены в BigQuery и Cloud Storage. Вы также можете использовать возможности машинного обучения Google для анализа наборов данных, таких как BigQuery ML, Vision AI, Cloud AutoML и т. Д. Вы также можете использовать Google Data Studio для создания визуализаций данных и интерактивных информационных панелей, чтобы вы могли лучше понять и найти закономерности. в данных. В общедоступных наборах данных Google Cloud содержатся данные от различных поставщиков данных, таких как GitHub, Бюро переписи населения США, НАСА, BitCoin, Министерство транспорта США и т. Д. Вы можете получить бесплатный доступ к этим наборам данных и получить бесплатный доступ к запросам объемом около 1 ТБ данных на каждый месяц в BigQuery.

2. Реестр открытых данных Amazon Web Services

Amazon Web Services имеет большое количество наборов данных в своем реестре открытых данных. Вы можете загрузить эти наборы данных и использовать их в своей системе или проанализировать данные в Amazon Elastic Compute Cloud (Amazon EC2). У Amazon также есть различные инструменты, которые вы можете использовать, такие как Apache Spark, Apache Hive и т. Д. Этот реестр открытых данных AWS является частью программы AWS Public Dataset Program, которая направлена на демократизацию доступа к данным, чтобы они были доступны всем, а также создание новых методов и инструментов анализа данных, которые минимизируют стоимость работы с данными. Вы можете получить доступ к наборам данных бесплатно, но вам понадобится бесплатная учетная запись AWS, прежде чем делать что-либо еще.

3. Data.gov

Соединенные Штаты Америки являются пионером и мировым лидером в области технологий. Большинство ведущих технологических компаний сегодня возникли в кремниевой долине, и само собой разумеется, что правительство США также активно участвует в науке о данных. Data.gov - это главный репозиторий открытых наборов данных правительства США, который вы можете использовать для исследований, разработки визуализаций данных, создания веб- и мобильных приложений и т. Д. Это попытка правительства быть более прозрачной, чтобы вы могли получить доступ к наборы данных напрямую без регистрации на сайте. Однако для некоторых наборов данных может потребоваться согласие с лицензионными соглашениями и другими техническими условиями, прежде чем вы сможете их загрузить. На Data.giv есть множество наборов данных, относящихся к различным областям, таким как климат, энергия, сельское хозяйство, экосистемы, океаны и т. Д., Поэтому обязательно ознакомьтесь с ними все!

4. Kaggle

На Kaggle есть около 23 000 общедоступных наборов данных, которые вы можете скачать бесплатно. Фактически, многие из этих наборов данных уже были загружены миллионы раз. Вы можете использовать поле поиска для поиска общедоступных наборов данных по любой теме, от здоровья до науки и популярных мультфильмов! Вы также можете создавать новые общедоступные наборы данных на Kaggle, и они могут принести вам медали, а также привести вас к продвинутым титулам Kaggle, таким как Expert, Master и Grandmaster. Вы также можете загрузить наборы данных о соревнованиях из Kaggle, участвуя в этих соревнованиях. Конкурентные наборы данных Kaggle намного более детализированы, тщательно отобраны и хорошо очищены, чем общедоступные наборы данных, доступные на Kaggle, поэтому вам, возможно, придется их просмотреть. Но в целом, если вы интересуетесь наукой о данных, то Kaggle - это то, что вам нужно!

5. Репозиторий машинного обучения UCI

Репозиторий машинного обучения UCI - отличное место для поиска интересных наборов данных, поскольку это один из первых и старейших источников данных, доступных в Интернете (он был создан в 1987 году!). Эти наборы данных отлично подходят для машинного обучения, и вы можете легко загрузить наборы данных из репозитория без какой-либо регистрации. Все наборы данных в репозитории машинного обучения UCI предоставлены разными пользователями, поэтому они немного малы с разным уровнем чистоты данных. Но большинство наборов данных поддерживается в хорошем состоянии, и вы можете легко использовать их для алгоритмов машинного обучения.

6. Национальный центр экологической информации

Если вы хотите получить доступ к данным о погоде и условиях окружающей среды, то Национальный центр экологической информации - лучший выбор! Ранее он был известен как Национальный центр климатических данных, но с тех пор они объединили центры данных Национального управления океанических и атмосферных исследований (NOAA), чтобы создать Национальные центры экологической информации (NCEI). NCEI имеет множество наборов данных, связанных с климатическими и погодными условиями в Соединенных Штатах. Фактически, это крупнейшее хранилище экологических данных в мире. Он включает в себя океанические данные, метеорологические данные, климатические условия, геофизические данные, информацию об атмосфере и т. Д. Если вы хотите знать о Земле, этот архив данных - лучшее место. Ознакомьтесь с некоторыми наборами данных здесь.

7. Глобальная обсерватория здравоохранения

Если вы работаете в области медицины и интересуетесь данными о здоровье или вы просто создаете проект по глобальным системам здравоохранения и болезням, то Глобальная обсерватория здравоохранения - лучшее место для получения множества данных о состоянии здоровья. Всемирная организация здравоохранения обнародовала все свои данные в Глобальной обсерватории здравоохранения, чтобы качественная медицинская информация была свободно доступна во всем мире на случай, если она понадобится для выявления и восстановления после чрезвычайной ситуации в области здравоохранения в любой точке мира. Данные о здоровье разделены по различным характеристикам, таким как инфекционные и неинфекционные заболевания, психическое здоровье, уровень смертности, лекарства и вакцины, борьба против табака, женщины и здоровье, риски для здоровья, иммунизация и т. Д. В настоящее время они уделяют огромное внимание Данные о COVID-19, чтобы эту пандемию можно было остановить как можно скорее.

8. Earthdata

Если вам нужны данные, связанные с Землей и Космосом, Earthdata - идеальное место для этого. Ведь он создан НАСА! Earthdata является частью программы Earth Science Data Systems, созданной НАСА, которая предоставляет наборы данных на основе атмосферы Земли, океанов, солнечных вспышек, криосферы, геомагнетизма, тектоники и т. Д. Earthdata является частью данных и информации системы наблюдения за Землей. Система (EOSDIS), которая собирает и обрабатывает данные с различных самолетов и спутников НАСА, а также полевые данные, полученные с земли. Хотя Earthdata предоставляет многие из этих наборов данных, у них также есть инструменты данных для поиска, обработки, упорядочивания, отображения и визуализации данных.