Схема науки о данных Дрю Конвея

Опубликовано: 17 Июля, 2021

Прежде чем перейти к диаграмме Венна Дрю Конвея по науке о данных, первым возникает вопрос: « Что такое наука о данных? «Наука о данных предполагает разные вещи для разных людей, но в целом наука о данных использует данные для ответа на вопросы. Это довольно широкое определение, потому что нужно сказать, что наука о данных - это достаточно широкая область!

Data science is the science of analyzing raw data using statistics and machine learning techniques with the purpose of drawing conclusions about that information.

Вкратце можно сказать, что Data Science включает в себя:

  • Статистика, информатика, математика
  • Очистка и форматирование данных
  • Визуализация данных

Итак, мы обсудили, что такое наука о данных и ключевые столпы науки о данных, но нам нужно поговорить еще о том, кто именно такой специалист по данным? В специальном отчете экономиста говорится, что ученого по данным можно охарактеризовать как кого-то:

“who combines the skills of software programmer, statistician, and storyteller slash artist to evoke the chunks of gold hidden under mountains of data”

Но теперь возникает вопрос, какие навыки воплощает в себе специалист по данным? И чтобы ответить на этот вопрос, давайте обсудим популярную диаграмму Венна, составленную Дрю Конвеем для науки о данных, в которой наука о данных представляет собой пересечение трех секторов - существенной экспертизы, хакерских навыков и математических и статистических знаний .

Давайте немного объясним, что мы подразумеваем под этой диаграммой Венна, мы знаем, что используем науку о данных, чтобы отвечать на вопросы - поэтому сначала нам нужно иметь достаточный опыт в области, которую мы хотим задать, чтобы выразить вопросы и понять какие данные важны для ответа на этот вопрос. Когда у нас есть вопрос и соответствующие данные, мы понимаем, исходя из видов данных, с которыми оперирует наука о данных, что зачастую их необходимо подвергнуть значительной очистке и форматированию - а для этого часто требуются навыки компьютерного программирования. Наконец, как только у нас есть данные, нам нужно их изучить , и обычно это передает знания математики и статистики.

Объяснение диаграммы Венна Дрю Конвея

В диаграмме Венна Дрю Конвея по науке о данных основные цвета данных

  • Навыки взлома,
  • Знание математики и статистики, и
  • Основная экспертиза

Но вопрос в том, почему он выделил эти три? Итак, давайте разберемся с термином почему !!

  • Всем известно, что данные - ключевая часть науки о данных. А данные - это товар, которым торгуют в электронном виде; Итак, чтобы быть на этом рынке, нужно говорить хакер . Итак, что означает эта линия? Уметь управлять текстовыми файлами из командной строки, обучаться векторизованным операциям, алгоритмически мыслить; хакерские навыки, которые делают успешным взломщиком данных .
  • После того, как вы собрали и очистили данные, следующий шаг - фактически получить из них понимание. Для этого вам необходимо использовать соответствующие математические и статистические методы , которые требуют хотя бы базового знакомства с этими инструментами. Это не означает, что кандидат статистических наук должен быть опытным специалистом по данным, но необходимо понимать, что такое обычная регрессия методом наименьших квадратов и как ее объяснить.
  • Третья важная часть - это существенная экспертиза. По словам Дрю Конвея, « данные плюс математика и статистика дают вам только машинное обучение» , что отлично, если это то, что вас интересует, но не если вы занимаетесь наукой о данных. Наука связана с экспериментированием и накоплением знаний, что требует некоторых мотивирующих вопросов о мире и гипотез, которые можно привести к данным и проверить с помощью статистических методов.
  • С другой стороны, «предметный опыт + знания в области математики и статистики - вот где падает максимум традиционного исследователя». Исследователи с докторской степенью тратят большую часть своего времени на получение опыта в этих областях, но очень мало времени на приобретение технологий. Отчасти это связано с академической культурой, которая не компенсирует исследователям знание технологий.
  • И, наконец, название «опасная зона хакерских навыков плюс существенная экспертиза». Сюда он помещает людей, которые «знают достаточно, чтобы быть опасными», и это самая сомнительная область на диаграмме. В этой зоне люди, которые в высшей степени способны извлекать и структурировать данные, вероятно, связанные с полем, о котором они знают довольно много, и, вероятно, даже знают достаточно R, чтобы запустить линейную регрессию и сообщить коэффициенты; но они требуют понимания того, что означают эти коэффициенты. Именно из этой части диаграммы возникает фраза «ложь, проклятая ложь и статистика», потому что из-за незнания или неприязни это совпадение навыков дает людям возможность создавать то, что кажется юридическим анализом, без какого-либо понимания того, как они туда попали или то, что они создали. К счастью, для получения хакерских навыков и значительного опыта без изучения математики и статистики требуется преднамеренное незнание.