Основы науки о данных

Опубликовано: 16 Мая, 2021

Согласно Harvard Business Review, Data Scientist - «Самая сексуальная работа 21 века» . Разве этого недостаточно, чтобы узнать больше о науке о данных!

Вступление

В мире пространства данных эра больших данных наступила, когда организации работали с петабайтами и эксабайтами данных. До 2010 года отраслям промышленности было очень трудно хранить данные. Теперь, когда популярные платформы, такие как Hadoop и другие, решили проблему хранения, основное внимание уделяется обработке данных. И здесь Data Science играет большую роль . В настоящее время рост науки о данных увеличился различными способами, и поэтому следует быть готовым к будущему, узнав, что такое наука о данных и как мы можем повысить ее ценность.

Что такое наука о данных?

Итак, теперь возникает самый первый вопрос: « Что такое Data Science? «Наука о данных означает разные вещи для разных людей, но по сути наука о данных использует данные для ответа на вопросы. Это довольно широкое определение, и это потому, что нужно сказать, что наука о данных - это умеренно широкая область!

Data science is the science of analyzing raw data using statistics and machine learning techniques with the purpose of drawing conclusions about that information.

Вкратце можно сказать, что Data Science включает в себя:

  • Статистика, информатика, математика
  • Очистка и форматирование данных
  • Визуализация данных

Ключевые столпы науки о данных

Обычно специалисты по анализу данных имеют разное образование и опыт работы, большинство из них должны иметь опыт или, в идеальном случае, быть мастерами в четырех ключевых областях.

Столп науки о данных

  • Базовые знания:
    • Большинство людей думают, что знания предметной области не важны в науке о данных, но необходимы. Основная цель науки о данных - извлечь из этих данных полезную информацию, чтобы она могла быть прибыльной для бизнеса компании. Если вы не знаете о бизнес-стороне компании, о том, как работает бизнес-модель компании и как вы не можете построить ее лучше, то вы бесполезны для этой компании.
    • Вам нужно знать, как задавать правильные вопросы нужным людям, чтобы вы могли воспринимать соответствующую информацию, необходимую для получения информации, которая вам нужна. Есть некоторые инструменты визуализации, используемые в бизнесе, такие как Tableau, которые помогают отображать ваши ценные результаты или идеи в надлежащем нетехническом формате, таком как графики или круговые диаграммы, которые могут понять деловые люди.
  • Математические навыки:
    • Линейная алгебра, многомерное исчисление и метод оптимизации : эти три вещи очень важны, поскольку они помогают нам понять различные алгоритмы машинного обучения, которые играют важную роль в науке о данных.
    • Статистика и вероятность : понимание статистики очень важно, поскольку это часть анализа данных. Вероятность также важна для статистики и считается предпосылкой для овладения машинным обучением.
  • Информатика:
    • Знания в области программирования : необходимо хорошо разбираться в концепциях программирования, таких как структуры данных и алгоритмы . Используемые языки программирования: Python, R, Java, Scala . C ++ также полезен в некоторых местах, где производительность очень важна.
    • Реляционные базы данных : нужно знать базы данных, такие как SQL или Oracle, чтобы он / она мог извлекать из них необходимые данные в любое время.
    • Нереляционные базы данных : существует много типов нереляционных баз данных, но наиболее часто используемые типы - это Cassandra, HBase, MongoDB, CouchDB, Redis, Dynamo.
    • Машинное обучение : это одна из самых важных частей науки о данных и самый популярный предмет исследований среди исследователей, поэтому каждый год в этой области делаются новые успехи. По крайней мере, нужно понимать базовые алгоритмы контролируемого и неконтролируемого обучения . В Python и R доступно несколько библиотек для реализации этих алгоритмов.
    • Распределенные вычисления : это также один из наиболее важных навыков для обработки большого количества данных, потому что невозможно обработать такой объем данных в одной системе. Чаще всего используются инструменты Apache Hadoop и Spark . Двумя основными частями этих сборов являются HDFS (распределенная файловая система Hadoop), которая используется для сбора данных в распределенной файловой системе. Другая часть - map-reduce , с помощью которой мы манипулируем данными. Можно писать map-reduce в программах на Java или Python . Существуют различные другие инструменты, такие как PIG, HIVE и т. Д.
  • Общительность:
    • Он включает как письменное, так и устное общение. Что происходит в проекте по науке о данных, так это после того, как сделаны выводы из анализа, о проекте нужно сообщить другим . Иногда это может быть отчет, который вы отправляете своему боссу или команде на работе. В других случаях это может быть сообщение в блоге. Часто это может быть презентация группе коллег. Тем не менее, проект по науке о данных всегда включает в себя некоторую форму передачи результатов проекта. Поэтому для того, чтобы стать специалистом по данным, необходимо иметь коммуникативные навыки.

Кто такой специалист по данным?

Итак, мы обсудили, что такое наука о данных и ключевые столпы науки о данных, но нам нужно поговорить еще о том, кто именно такой специалист по данным? В специальном отчете экономиста говорится, что аналитик данных определяется как кто-то:

“who integrates the skills of software programmer, statistician and storyteller slash artist to extract the nuggets of gold hidden under mountains of data”

Но теперь возникает вопрос, какие навыки воплощает в себе специалист по данным? И чтобы ответить на этот вопрос, давайте обсудим популярную диаграмму Венна, составленную Дрю Конвеем для науки о данных, в которой наука о данных представляет собой пересечение трех секторов - существенного опыта, хакерских навыков и математических и статистических знаний .

Давайте объясним немного, что мы подразумеваем под этой диаграммой Венна, мы знаем, что используем науку о данных, чтобы отвечать на вопросы - поэтому, во-первых, нам нужно иметь достаточный опыт в области, которую мы хотим задать, чтобы выразить вопросы и понять какие данные важны для ответа на этот вопрос. Как только у нас есть вопрос и соответствующие данные, мы понимаем, что из видов данных, с которыми работает наука о данных, часто требуется значительная очистка и форматирование, а для этого часто требуются навыки компьютерного программирования. Наконец, когда у нас есть данные, нам нужно их проанализировать, а для этого часто требуются математические и статистические знания.

Роли и обязанности специалиста по данным:

  • Управление: Специалист по данным играет незначительную управленческую роль, где он поддерживает создание базы футуристических и технических способностей в области данных и аналитики, чтобы помочь различным запланированным и продолжающимся проектам анализа данных.
  • Аналитика: специалист по данным представляет собой научную роль, в которой он планирует, внедряет и оценивает статистические модели и стратегии высокого уровня для применения в наиболее сложных вопросах бизнеса. Специалист по анализу данных разрабатывает эконометрические и статистические модели для различных задач, включая прогнозы, классификацию, кластеризацию, анализ шаблонов, выборку, моделирование и т. Д.
  • Стратегия / дизайн: Data Scientist играет жизненно важную роль в продвижении инновационных стратегий для понимания потребительских тенденций и управления бизнесом, а также способов решения сложных бизнес-проблем, например, оптимизации реализации продукта и всей прибыли.
  • Сотрудничество: роль специалиста по данным - это не единственная роль, и на этой должности он сотрудничает с ведущими специалистами по обработке данных, чтобы сообщать о препятствиях и выводах соответствующим заинтересованным сторонам в целях повышения эффективности бизнеса и принятия решений.
  • Знания: Data Scientist также берет на себя лидерство в изучении различных технологий и инструментов с целью создания инновационных аналитических данных для бизнеса на основе данных в наиболее быстрых темпах. В этой ситуации специалист по анализу данных также проявляет инициативу в оценке и использовании новых и усовершенствованных методов анализа данных для бизнеса, которые он передает высшему руководству на одобрение.
  • Другие обязанности: специалист по данным также выполняет связанные задачи и задачи, назначенные старшим специалистом по данным, руководителем отдела науки о данных, директором по данным или работодателем.

Разница между специалистом по данным, аналитиком данных и инженером по данным:

Data Scientist, Data Engineer и Data Analyst - три наиболее распространенных профессии в области науки о данных. Итак, давайте разберемся, кто такой специалист по данным, сравнив его с аналогичной работой.

Специалист по данным

Аналитик данных

Инженер по данным

Основное внимание будет уделено футуристическому отображению данных. Основное внимание аналитика данных уделяет оптимизации сценариев, например, как сотрудник может повысить рост продукта компании. Специалисты по обработке данных сосредотачиваются на методах оптимизации и построении данных обычным способом. Цель инженера по обработке данных - постоянно увеличивать потребление данных.
Специалисты по обработке данных представляют как контролируемое, так и неконтролируемое обучение данных, например, регрессию и классификацию данных, нейронные сети и т. Д. Формирование данных и очистка необработанных данных, интерпретация и визуализация данных для выполнения анализа и выполнения технического обзора данных. Часто инженеры по обработке данных работают в серверной части. Оптимизированные алгоритмы машинного обучения использовались для хранения данных и обеспечения наиболее точной подготовки данных.
Специалисту по данным требуются следующие навыки: Python, R, SQL, Pig, SAS, Apache Hadoop, Java, Perl, Spark. Специалисту по анализу данных необходимы следующие навыки: Python, R, SQL, SAS. Навыки, необходимые для Data Engineer, включают методы MapReduce, Hive, Pig Hadoop.

Некоторые вдохновляющие исследователи данных

Разнообразие областей, в которых используется наука о данных, можно увидеть на примерах специалистов по данным.

  • Хилари Мейсон: Она является соучредителем FastForward labs, компании по машинному обучению, недавно принадлежащей Cloudera , компании, занимающейся наукой о данных. Она специалист по анализу данных в Accel. В целом, она работает с данными, чтобы решать вопросы о майнинге в Интернете, а также изучает метод, которым люди общаются друг с другом через социальные сети.
  • Нейт Сильвер: Сегодня он является одним из самых выдающихся ученых и статистиков в мире. Он является основателем FiveThirtyEight. FiveThirtyEight - это веб-сайт, который применяет статистический анализ, чтобы рассказывать интересные истории о выборах, политике, спорте, науке и образе жизни. Он использует огромные объемы общедоступных данных для предсказания разнообразия тем; наиболее заметно он предсказывает, кто победит на выборах в США, и обладает исключительной точностью в этом.
  • Дэрил Мори: Он является генеральным менеджером баскетбольной команды США «Хьюстон Рокетс». Он был удостоен должности GM на основании степени бакалавра компьютерных наук и степени магистра делового администрирования в Массачусетском технологическом институте.

Зачем нам нужна наука о данных?

Одной из причин ускорения развития науки о данных в последние годы является огромный объем данных, доступных и генерируемых в настоящее время. Не только собираются огромные объемы данных о многих аспектах мира и нашей жизни, но и одновременно наблюдается рост недорогих вычислений. Это сформировало идеальный шторм, в котором у нас есть богатые данные и инструменты для их анализа. Расширение возможностей компьютерной памяти, более совершенное программное обеспечение, более компетентные процессоры, а теперь и более многочисленные специалисты по данным, обладающие навыками, позволяющими использовать это и решать вопросы с использованием данных!

Что такое большие данные?

Мы часто слышим термин « большие данные» . Так что он заслуживает здесь введения - поскольку он стал неотъемлемой частью развития науки о данных.

Что означают большие данные?

Большие данные буквально означают большие объемы данных. Большие данные лежат в основе идеи о том, что можно делать полезные выводы с большим объемом данных, что было невозможно раньше с небольшими наборами данных. Таким образом, чрезвычайно большие наборы данных могут быть проанализированы с помощью вычислений, чтобы выявить закономерности, тенденции и ассоциации, которые непрозрачны или легко идентифицировать.

Почему всех интересуют большие данные?

Big data is everywhere!

Каждый раз, когда вы заходите в Интернет и делаете что-то, собираются данные, каждый раз, когда вы покупаете что-то в одном из магазинов электронной коммерции , собираются ваши данные. Всякий раз, когда вы идете в магазин, данные собираются в точке продажи, когда вы выполняете банковские транзакции, эти данные там, когда вы заходите в социальные сети, такие как Facebook, Twitter, эти данные собираются. Сейчас это скорее социальные данные, но то же самое начинает происходить с реальными машиностроительными заводами. Данные в реальном времени собираются с растений по всему миру. Не только это, если вы делаете гораздо более сложное моделирование, молекулярное моделирование , которое генерирует тонны данных, которые также собираются и хранятся.

Сколько данных - это большие данные?

  • Google обрабатывает 20 петабайт (ПБ) в день (2008 г.)
  • Facebook имеет 2,5 ПБ пользовательских данных + 15 ТБ в день (2009 г.)
  • eBay имеет 6,5 ПБ пользовательских данных + 50 ТБ в день (2009 г.)
  • Большой адронный коллайдер (LHC) ЦЕРН генерирует 15 ПБ в год

Почему наука о данных?

Говоря о спросе, существует огромная потребность в людях с навыками работы с данными. Согласно отчету LinkedIn о новых рабочих местах в США, специалист по данным за 2020 год занял 3- е место с 37% годовым ростом. Это направление возглавляет список новых вакансий три года подряд.

Кроме того, в соответствии с Glassdoor, в котором они перечислены 50 наиболее удовлетворяющих рабочих мест в Америке, ученый Данные # 3 Работа в США в 2020 году, на основе удовлетворенности работой (4.0 / 5), зарплата ($ 107801) и спроса.

Так что сейчас отличное время, чтобы заняться наукой о данных - у нас не только больше данных и больше инструментов для их сбора, хранения и интерпретации, но и потребность в специалистах по данным часто растет и воспринимается как важная во многих случаях. различные секторы, а не только бизнес и научные круги.

Наука о данных в действии!

Одним из известных примеров использования науки о данных в действии является 2009 год, когда некоторые исследователи из Google проанализировали 50 миллионов часто используемых слов в течение пятилетнего периода и сравнили их с данными Центров по контролю и профилактике заболеваний (CDC) о вспышках гриппа. Их цель заключалась в том, чтобы понять, соответствуют ли некоторые конкретные запросы вспышкам гриппа.

Одно из преимуществ науки о данных и работы с большими данными заключается в том, что она может различать корреляции; в этом случае они выделили 45 слов, которые имели сильную корреляцию с данными о вспышках гриппа CDC. И используя эти данные, они смогли предсказать вспышки гриппа только на основе обычного поиска в Google! Без такого огромного количества данных эти 45 слов невозможно было бы предсказать заранее.

Что такое данные?

Поскольку мы потратили некоторое время на обсуждение того, что такое наука о данных, необходимо потратить некоторое время на то, чтобы понять, что же такое данные. Википедия определяет данные как

A set of values of qualitative or quantitative variables.

Это определение больше фокусируется на том, что влечет за собой данные. И хотя это достаточно короткое определение. Давайте потратим секунду, чтобы проанализировать это и сосредоточиться на каждом компоненте индивидуально.

  • Набор значений : первый термин, на котором нужно сосредоточиться, - это «набор значений» - чтобы иметь данные, нам требуется включить набор значений. В статистике этот набор значений известен как совокупность . Например, набор значений, необходимых для ответа на ваш вопрос, может включать все веб-сайты или приложения, или это может быть набор всех людей, принимающих конкретный препарат, или набор людей, посещающих определенный веб-сайт. Но, как правило, это набор вещей, на которых вы собираетесь проводить измерения.
  • Переменные : Следующее, на чем нужно сосредоточиться, - это «переменные» - переменные - это измерения или характеристики предмета. Например, вы можете измерять вес человека или оценивать количество времени, которое человек посещает на веб-сайте или в приложении. Или это может быть еще одна качественная характеристика, которую вы пытаетесь измерить, например, что человек нажимает на веб-сайт, или вы думаете, является ли посетитель мужчиной или женщиной.
  • Качественные и количественные переменные . Наконец, у нас есть как « качественные, так и количественные переменные ». Качественные переменные - это информация о качествах. Это такие вещи, как страна происхождения, пол, религия и т. Д. Они обычно представлены словами, а не числами, и они не индексируются и не упорядочиваются. С другой стороны, количественные переменные - это информация о количествах. Количественные измерения обычно представлены числами и оцениваются по постоянной упорядоченной шкале; это что-то вроде веса, роста, возраста и артериального давления.

Процесс науки о данных

Части, участвующие в полном проекте по науке о данных:

  1. Формирование вопроса : каждый проект по науке о данных начинается с вопроса, на который нужно ответить с помощью данных. Это означает, что « формирование вопроса» - важный первый шаг в этом процессе. Когда вы начинаете проект по науке о данных, хорошо, если ваш вопрос четко сформулирован. По мере выполнения анализа могут возникнуть дополнительные вопросы, но понимание того, на что вам нужно ответить в ходе анализа, является очень важным первым шагом.
  2. Поиск или создание данных . Второй шаг - « поиск или создание данных », которые вы собираетесь использовать для ответа на этот вопрос. Генерация данных может быть получена в любом случайном формате. Итак, в соответствии с выбранным подходом и ожидаемыми выходными данными собранные данные должны быть проверены. Таким образом, при необходимости можно собрать больше данных или отбросить нерелевантные данные.
  3. Затем данные анализируются : после того, как вопрос закреплен, и данные в руках, « данные затем анализируются ». Это можно сделать в двух частях.
    • Изучение данных : на этом этапе вы изучаете и предварительно обрабатываете данные для моделирования. Вы сможете выполнять очистку и визуализацию данных. Это поможет найти различия и установить связь между факторами. После того, как вы выполнили этот шаг, пора выполнить его исследовательскую аналитику.
    • Моделирование данных : на этом этапе вы создадите наборы данных для целей обучения и тестирования. Вы можете интерпретировать различные методы обучения, такие как классификация и кластеризация, и, наконец, использовать наиболее подходящую технику для построения шоу. Короче говоря, это означает использование некоторых статистических методов или методов машинного обучения для анализа данных и ответа на ваш вопрос.
  4. Передано другим : после того, как будут сделаны выводы из этого анализа, проект необходимо « сообщить другим» . Важным компонентом любого проекта по науке о данных является адекватное описание результатов проекта. Иногда это отчет, который вы отправляете своему начальнику, или это может быть сообщение в блоге.

Некоторые интересные проекты в области науки о данных:

Ниже приведены несколько интересных проектов в области науки о данных. В каждом проекте у автора был вопрос, и они хотели его решить. И они использовали данные, чтобы решить этот вопрос. Они проанализировали и визуализировали данные. Затем они написали сообщения в блогах, чтобы сообщить о своих результатах. Узнайте больше об этих темах и узнайте, как другие работают над проектом по науке о данных и приносят свои результаты!

  • Анализ текста твитов Трампа подтверждает, что он пишет только (более злобную) половину Android, Дэвид Робинсон
  • Хилари: самое отравленное имя ребенка в истории США Хилари Паркер
  • Где жить в США, с картины Мэлле Сэлмон
  • Клиники сексуального здоровья в Торонто, Шарла Гельфанд

Некоторые важные статистические данные

Опрос разработчиков Stackoverflow, 2020 - роли разработчиков

Согласно опросу разработчиков StackOverflow, 2020 - роли разработчиков, около 8,1% респондентов идентифицируют себя как специалистов по обработке данных или специалистов по машинному обучению.

Опрос разработчиков Stackoverflow, 2020 - роли разработчиков

Самые востребованные навыки работы с данными в 2019 году

Как стать более востребованным специалистом по данным