Зачем нам нужна наука о данных?

Опубликовано: 22 Мая, 2021

После того, как вы узнаете, что такое наука о данных, ключевые столпы науки о данных, роли и обязанности специалиста по данным, возникает один из основных вопросов: зачем нам нужна наука о данных? Но прежде чем перейти к вопросу, давайте кратко обсудим, почему наука о данных? Это мотивирует вас узнать больше о науке о данных.

Зачем нужна наука о данных?

Говоря о спросе, существует огромная потребность в людях с навыками работы с данными. Согласно отчету LinkedIn о новых рабочих местах в США, специалист по данным за 2020 год занял 3- е место с 37% годовым ростом. Это направление возглавляет список новых вакансий три года подряд. Кроме того, в соответствии с Glassdoor, в котором они перечислены 50 наиболее удовлетворяющих рабочих мест в Америке, ученый Данные # 3 Работа в США в 2020 году, на основе удовлетворенности работой (4.0 / 5), зарплата ($ 107801) и спроса. Согласно опросу разработчиков StackOverflow, 2020 - роли разработчиков, около 8,1% респондентов идентифицируют себя как специалистов по обработке данных или специалистов по машинному обучению.

Источник изображения: Stackoverflow

Так что сейчас отличное время, чтобы заняться наукой о данных - у нас не только больше данных и больше инструментов для их сбора, хранения и интерпретации, но и потребность в специалистах по данным часто растет и воспринимается как важная во многих случаях. различные секторы, а не только бизнес и научные круги. Итак, переходим к теме.

Зачем нам нужна наука о данных?

Вы можете заметить, что в терминологии «наука о данных» есть термин «данные». Так какие же данные на самом деле? Кратко обсудим термин «данные».

Что такое данные?

Поскольку мы потратили некоторое время на обсуждение того, что такое наука о данных, необходимо потратить некоторое время на то, чтобы понять, что же такое данные. Википедия определяет данные как

A set of values of qualitative or quantitative variables.

Это определение больше фокусируется на том, что влечет за собой данные. И хотя это достаточно короткое определение. Давайте потратим секунду, чтобы проанализировать это и сосредоточиться на каждом компоненте индивидуально.

  • Набор значений : первый термин, на котором нужно сосредоточиться, - это «набор значений» - чтобы иметь данные, нам требуется включить набор значений. В статистике этот набор значений известен как совокупность . Например, набор значений, необходимых для ответа на ваш вопрос, может включать все веб-сайты или приложения, или это может быть набор всех людей, принимающих конкретный препарат, или набор людей, посещающих определенный веб-сайт. Но, как правило, это набор вещей, на которых вы собираетесь проводить измерения.
  • Переменные : Следующее, на чем нужно сосредоточиться, - это «переменные» - переменные - это измерения или характеристики предмета. Например, вы можете измерять вес человека или оценивать количество времени, в течение которого человек посещает веб-сайт или приложение. Или это может быть еще одна качественная характеристика, которую вы пытаетесь измерить, например, что человек нажимает на веб-сайт, или вы думаете, является ли посетитель мужчиной или женщиной.
  • Качественные и количественные переменные . Наконец, у нас есть как « качественные, так и количественные переменные ». Качественные переменные - это информация о качествах. Это такие вещи, как страна происхождения, пол, религия и т. Д. Они обычно представлены словами, а не числами, и они не индексируются и не упорядочиваются. С другой стороны, количественные переменные - это информация о количествах. Количественные измерения обычно представлены числами и оцениваются по постоянной упорядоченной шкале; это что-то вроде веса, роста, возраста и артериального давления.

После краткого знакомства с данными есть еще один термин, который мы часто слышим - большие данные, когда речь идет о мире науки о данных. Так что он заслуживает здесь введения - поскольку он стал неотъемлемой частью развития науки о данных.

Что такое большие данные?

Большие данные буквально означают большие объемы данных. Большие данные лежат в основе идеи о том, что можно делать полезные выводы с большим объемом данных, что было невозможно раньше с небольшими наборами данных. Таким образом, чрезвычайно большие наборы данных могут быть проанализированы с помощью вычислений, чтобы выявить закономерности, тенденции и ассоциации, которые непрозрачны или легко идентифицировать.

Почему всех интересуют большие данные?

Big data is everywhere!

Каждый раз, когда вы заходите в Интернет и делаете что-то, собираются данные, каждый раз, когда вы покупаете что-то в одном из магазинов электронной коммерции , собираются ваши данные. Всякий раз, когда вы идете в магазин, данные собираются в точке продажи, когда вы выполняете банковские транзакции, эти данные там, когда вы заходите в социальные сети, такие как Facebook, Twitter, эти данные собираются. Сейчас это скорее социальные данные, но то же самое начинает происходить с реальными машиностроительными заводами. Данные в реальном времени собираются с растений по всему миру. Не только это, если вы делаете гораздо более сложное моделирование, молекулярное моделирование , которое генерирует тонны данных, которые также собираются и хранятся.

Сколько данных - это большие данные?

  • Google обрабатывает 20 петабайт (ПБ) в день (2008 г.)
  • Facebook имеет 2,5 ПБ пользовательских данных + 15 ТБ в день (2009 г.)
  • eBay имеет 6,5 ПБ пользовательских данных + 50 ТБ в день (2009 г.)
  • Большой адронный коллайдер (LHC) ЦЕРН генерирует 15 ПБ в год

Таким образом, одной из причин ускорения развития науки о данных в последние годы является огромный объем данных ( например, Big Data ), доступных и генерируемых в настоящее время. Не только собираются огромные объемы данных о многих аспектах мира и нашей жизни, но и одновременно наблюдается рост недорогих вычислений. Это сформировало идеальный шторм, в котором у нас есть богатые данные и инструменты для их анализа. Расширение возможностей компьютерной памяти, более совершенное программное обеспечение, более компетентные процессоры, а теперь и более многочисленные специалисты по данным, обладающие навыками, позволяющими использовать это и решать вопросы с использованием данных! И это главная причина, по которой нам в будущем нужна наука о данных.