Как стать специалистом по данным - полная дорожная карта

Опубликовано: 22 Мая, 2021

Согласно Harvard Business Review , Data Scientist - «Самая сексуальная работа 21 века». Разве этого недостаточно, чтобы узнать больше о науке о данных! В мире пространства данных эра больших данных наступила, когда организации работали с петабайтами и эксабайтами данных. До 2010 года отраслям промышленности было очень трудно хранить данные. Теперь, когда популярные фреймворки, такие как Hadoop и другие, решили проблему хранения, основное внимание уделяется обработке данных. И здесь Data Science играет большую роль . В настоящее время развитие науки о данных происходит различными способами, поэтому нужно быть готовым к будущему, изучая, что такое наука о данных и как мы можем повысить ее ценность.

Что такое Data Science?

Итак, теперь возникает самый первый вопрос: «Что такое Data Science ? «Наука о данных означает разные вещи для разных людей, но по сути наука о данных использует данные для ответа на вопросы. Это довольно широкое определение, и это потому, что нужно сказать, что наука о данных - это умеренно широкая область!

Data science is the science of analyzing raw data using statistics and machine learning techniques with the purpose of drawing conclusions about that information.

Вкратце можно сказать, что Data Science включает в себя:

  • Статистика, информатика, математика
  • Очистка и форматирование данных
  • Визуализация данных

В настоящее время всем известно, насколько популярна Data Science . Теперь возникают вопросы: почему наука о данных (сначала определите цель?), С чего начать? Когда начать? Какие темы нужно освещать? и т. д. и т. д. Вам нужно изучить все концепции из книги, или вы должны пойти с некоторыми онлайн-учебными пособиями, или вы должны изучить Data Science, выполнив некоторые проекты на нем? Итак, в этой статье мы собираемся обсудить все это подробно.

Почему наука о данных? (Сначала определите цель?)

Поэтому, прежде чем переходить к полной дорожной карте науки о данных, у человека должна быть четкая цель, почему он / она хочет изучать науку о данных? Это из-за фразы « Самая сексуальная работа 21 века »? Это для ваших академических проектов в колледже? или это для вашей долгосрочной карьеры? или вы хотите переключить свою карьеру на мир данныхологов? Итак, сначала поставьте четкую цель. Почему вы хотите изучать Data Science? Например, если вы хотите изучать науку о данных для академических проектов в колледже, достаточно просто изучить новички в области науки о данных. Точно так же, если вы хотите построить свою долгосрочную карьеру, вам также следует изучить профессиональные или продвинутые вещи. Вы должны подробно осветить все необходимые условия. Так что все в ваших руках, и это ваше решение, почему вы хотите изучать Data Science.

Как изучать науку о данных?

Обычно специалисты по анализу данных имеют разное образование и опыт работы, большинство из них должны иметь опыт или, в идеальном случае, быть мастерами в четырех ключевых областях.

  1. Базовые знания
  2. Математические навыки
  3. Информатика
  4. Общительность

Базовые знания

Большинство людей думают, что знания предметной области не важны в науке о данных, но очень важны. Возьмем пример: если вы хотите быть специалистом по обработке данных в банковском секторе, и у вас есть гораздо больше информации о банковском секторе, например, о торговле акциями, о финансах и т. Д., Так что это будет очень полезно для вас и Сам банк будет отдавать больше предпочтений этим типам соискателей, чем обычным соискателям.

Математические навыки

Линейная алгебра, многомерное исчисление и метод оптимизации - эти три вещи очень важны, поскольку они помогают нам понять различные алгоритмы машинного обучения, которые играют важную роль в науке о данных. Точно так же понимание статистики очень важно, поскольку это часть анализа данных. Вероятность также важна для статистики и считается предпосылкой для овладения машинным обучением.

Информатика

В информатике есть чему поучиться. Но когда дело доходит до языка программирования, возникает один из основных вопросов:

Python or R for Data Science?



Есть разные причины выбрать язык для Data Science, поскольку оба имеют богатый набор библиотек для реализации сложного алгоритма машинного обучения, визуализации и очистки данных. Пожалуйста, обратитесь к R vs Python в Data Science, чтобы узнать больше об этом.

But my recommendation is one must have knowledge of both the programming language to become a successful data scientist.

Помимо языка программирования, вам необходимо овладеть следующими навыками информатики:

  • Основы структуры данных и алгоритма
  • SQL
  • MongoDB
  • Linux
  • Git
  • Распределенных вычислений
  • Машинное обучение и глубокое обучение и т. Д.

Общительность

Он включает как письменное, так и устное общение. Что происходит в проекте по науке о данных, так это после того, как сделаны выводы из анализа, о проекте нужно сообщить другим . Иногда это может быть отчет, который вы отправляете своему боссу или команде на работе. В других случаях это может быть сообщение в блоге. Часто это может быть презентация группе коллег. Тем не менее, проект по науке о данных всегда включает в себя некоторую форму передачи результатов проекта. Поэтому для того, чтобы стать специалистом по данным, необходимо иметь коммуникативные навыки.

Образовательные ресурсы

В Интернете доступно множество ресурсов и видео, и кого-то непонятно, с чего начать изучение всех концепций. Изначально, как новичок, если вы будете перегружены таким количеством концепций, не бойтесь и перестаньте учиться. Наберитесь терпения, исследуйте и оставайтесь верными этому.

Некоторые полезные ссылки на учебные ресурсы доступны на GeeksforGeeks:

  • Математика
  • Python
  • р
  • SQL
  • Структура данных
  • Машинное обучение

Дорожная карта для изучения

Начните с обзора науки о данных. Прочтите несколько блогов, связанных с наукой о данных, а также исследуйте некоторые вещи, связанные с наукой о данных. Например, прочтите блоги о Введение в науку о данных, Почему следует выбрать науку о данных в качестве карьеры, Отрасли, которые извлекают наибольшую выгоду из науки о данных, 10 лучших навыков в области науки о данных, которые нужно освоить в 2020 году и т. Д. И т. Д., И составьте полное представление. чтобы начать свое путешествие в области науки о данных. Заставьте себя мотивировать себя изучать Data Science и создавать потрясающие проекты в Data Science. Делайте это регулярно, а также начните изучать одну за другой новую концепцию Data Science. Будет очень лучше присоединиться к некоторым семинарам или конференциям по науке о данных, прежде чем вы начнете свое путешествие. Сделайте свою цель ясной и двигайтесь к ней.

1) Математика

Математические навыки очень важны, поскольку они помогают нам понять различные алгоритмы машинного обучения, которые играют важную роль в науке о данных.

  • Часть 1:
    • Линейная алгебра
    • Аналитическая геометрия
    • Матрица
    • Векторное исчисление
    • Оптимизация
  • Часть 2:
    • Регресс
    • Уменьшение размерности
    • Оценка плотности
    • Классификация

2) Вероятность

Вероятность также важна для статистики и считается предпосылкой для овладения машинным обучением.

  • Введение в вероятность
  • 1D случайная переменная
  • Функция одной случайной переменной
  • Совместное распределение вероятностей
  • Дискретное распределение
    • Биномиальный (Python | R)
    • Бернулли
    • Геометрические и т. Д.
  • Непрерывное распространение
    • Униформа
    • Экспоненциальный
    • Гамма
  • Нормальное распределение (Python | R)

3) Статистика

Понимание статистики очень важно, поскольку это часть анализа данных.

  • Введение в статистику
  • Описание данных
  • Случайные выборки
  • Выборочное распределение
  • Оценка параметров
  • Проверка гипотез (Python | R)
  • ANOVA (Python | R)
  • Надежность
  • Стохастический процесс
  • Компьютерное моделирование
  • Дизайн экспериментов
  • Простая линейная регрессия
  • Корреляция
  • Множественная регрессия (Python | R)
  • Непараметрическая статистика
    • Знаковый тест
    • Знаковый ранговый тест Вилкоксона (клавиша R)
    • Тест суммы рангов Вилкоксона
    • Тест Краскела-Уоллиса (клавиша R)
  • Статистический контроль качества
  • Основы графов

4) Программирование

Необходимо хорошо разбираться в таких концепциях программирования, как структуры данных и алгоритмы . Используемые языки программирования: Python, R, Java , Scala. C ++ также полезен в некоторых местах, где производительность очень важна.

  • Python:
    • Основы Python
      • Список
      • Набор
      • Кортежи
      • Словарь
      • Функция и т. Д.
    • NumPy
    • Панды
    • Матплотлиб / Сиборн и др.
  • Р:
    • Основы R
      • Вектор
      • Список
      • Фрейм данных
      • Матрица
      • Множество
      • Функция и т. Д.
    • dplyr
    • ggplot2
    • Тидыр
    • Блестящие и т. Д.
  • База данных:
    • SQL
    • MongoDB
  • Другой:
    • Структура данных
      • Сложность времени
    • Веб-парсинг (Python | R)
    • Linux
    • Git

Рекомендации:

  • Python
  • р
  • SQL
  • Структура данных

5) Машинное обучение

Машинное обучение - одна из наиболее важных частей науки о данных и самый популярный объект исследований среди исследователей, поэтому каждый год в этом направлении делаются новые успехи. По крайней мере, нужно понимать базовые алгоритмы контролируемого и неконтролируемого обучения . В Python и R доступно несколько библиотек для реализации этих алгоритмов.

  • Вступление:
    • Как работает модель
    • Базовое исследование данных
    • Первая модель машинного обучения
    • Проверка модели
    • Недооснащение и переоборудование
    • Случайные леса (Python | R)
    • scikit-learn
  • Средний:
    • Обработка отсутствующих значений
    • Обработка категориальных переменных
    • Трубопроводы
    • Перекрестная проверка (клавиша R)
    • XGBoost (Python | R)
    • Утечка данных

6) Глубокое обучение

Глубокое обучение использует TensorFlow и Kerast для построения и обучения нейронных сетей для структурированных данных.

  • Искусственная нейронная сеть
  • Сверточная нейронная сеть
  • Рекуррентная нейронная сеть
  • TensorFlow
  • Керас
  • PyTorch
  • Один нейрон
  • Глубокая нейронная сеть
  • Стохастический градиентный спуск
  • Переобучение и недообучение
  • Нормализация выпадающего пакета
  • Бинарная классификация

7) Разработка функций

В Feature Engineering найдите наиболее эффективный способ улучшить свои модели.

  • Базовая модель
  • Категориальные кодировки
  • Генерация функций
  • Выбор функции

8) Обработка естественного языка

В НЛП выделитесь, научившись работать с текстовыми данными.

  • Текстовая классификация
  • Слово Векторы

9) Инструменты визуализации данных

Создавайте отличные визуализации данных. Отличный способ увидеть всю мощь программирования!

  • Excel VBA
  • BI (бизнес-аналитика):
    • Tableau
    • Power BI
    • Qlik View
    • Qlik Sense

10) Развертывание

Последняя часть выполняет развертывание. Безусловно, независимо от того, являетесь ли вы новичком, имеете ли вы опыт 5+ или более 10 лет, развертывание необходимо. Потому что развертывание обязательно даст вам факт, что вы много работали.

  • Microsoft Azure
  • Heroku
  • Облачная платформа Google
  • Колба
  • DJango

11) Другие моменты для изучения

  • Базовые знания
  • Общительность
  • Обучение с подкреплением
  • Различные тематические исследования:
    • Наука о данных в Netflix
    • Наука о данных в Flipkart
    • Проект по выявлению мошенничества с кредитными картами
    • Проект по рекомендации фильмов и т. Д.

12) Продолжайте практиковать

“Practice makes a man perfect” which tells the importance of continuous practice in any subject to learn anything. 

Так что продолжайте практиковаться и улучшать свои знания изо дня в день. Ниже приведено полное схематическое представление дорожной карты Data Scientist.