Опыт интервью ZS Associates для младшего специалиста по науке о данных

Опубликовано: 21 Августа, 2021

ZS Associates - одна из лучших консалтинговых фирм, в которой также есть отличная команда специалистов по анализу данных. Основная клиентура ZS - фармацевтические компании, но она также состоит из других доменов. Роли консультантов в ZS следуют нижеприведенной иерархии:

  1. Партнер
  2. Младший консультант
  3. Консультант
  4. Менеджер

Когда я учился в колледже, моей целью было работать с ZS. Я подал заявку на роль DAA (Decision Analytics), но тогда не смог ее взломать. ZS нанимает новичков и опытных кандидатов начального уровня на должность младшего специалиста по науке о данных (DSA). Когда я начал заниматься машинным обучением и наукой о данных, я составил список целевых компаний, частью которых я хотел бы стать. ZS была одной из них, учитывая ее трудовую этику и то, как она относится к своим сотрудникам.

Процесс подачи заявки: изначально я подал заявку на роль DSA в марте 2020 года. У меня не было никого, кого можно было бы попросить о направлении, поэтому я подал заявку непосредственно на их веб-сайте. Первый шаг в подаче заявки - это составление короткого списка вашего резюме. Поэтому убедитесь, что резюме соответствует работе, на которую вы претендуете. Я скоро буду вести блог о написании резюме. Возвращаясь к сути, я получил приглашение отправить тест на машинное обучение на Hackerearth после того, как мое резюме попало в короткий список.

Я отправил тест, но вскоре после того, как произошла изоляция, ZS заморозила прием на работу! Для меня это был облом, но я все равно продолжал расширять свои навыки.

Перенесемся в октябрь 2020 года, ZS снова начала нанимать сотрудников после 6-месячного перерыва. Я снова подал заявку, и мне позвонили, чтобы снова сдать тест. Процесс состоял из 3 раундов, и все они были раундами на выбывание.

Раунд 1 (задача по машинному обучению): первый раунд заключался в решении задачи машинного обучения и отправке прогнозов в формате CSV вместе с исходным кодом. Проблема машинного обучения, с которой я столкнулся, заключалась в классификации текста с описанием вакансий с портала вакансий фармацевтической компании. Моя задача состояла в том, чтобы создать модель машинного обучения, которая учитывает текст описания должности и предсказывает 2 цели: тип работы и категория должности. Заявка должна была быть CSV-файлом, содержащим прогнозы на основе тестовых данных.

Проблема и подход: Тип работы состоял из 6 классов, а Категория работы состояла из 11 классов. По сути, это была проблема многоклассовой классификации с двумя целями. Я выполнил следующие шаги, чтобы решить проблему и отправить решение и прогнозы:

  1. Понимание данных
  2. EDA
  3. Предварительная обработка текста
  4. Токенизация
  5. Стемминг / лемматизация
  6. Векторизация слов и создание вложений с помощью Word2Vec
  7. Моделирование
  8. Настройка гиперпараметров
  9. Получение прогнозов на основе тестовых данных
  10. Сохранение и отправка исходного кода и CSV

На выполнение этого задания на HackerEarth мне дали почти 2,5 дня. Я представил решение и скрестил пальцы.

Раунд 2 (обзор дела): мне позвонили из отдела кадров по поводу второго раунда через 4-5 дней после отправки задачи 1 раунда. Этот раунд был техническим обсуждением проблемы машинного обучения и моего решения. Мне пришлось сделать PPT, описывающий шаги, которые я сделал, полученные результаты и исходный код.

Интервью было запланировано на Zoom на 1 час и требовало, чтобы я показал свой экран и представил им свое решение. Интервью началось, и я шаг за шагом описал им все решение в своей презентации.

Обсуждение: После просмотра моей презентации от начала до конца мне почти не задавали вопросов. И я подумал, что это легко! Но этого не было. Когда я закончил объяснять решение, они начали задавать мне вопросы о моем подходе с первого шага. Некоторые из них были:

  1. Почему вы не делали больше EDA? Что еще ты мог сделать?
  2. Вы проигнорировали важность слов. Каким образом вы могли бы проанализировать важность слова и добавить для него еще одну особенность?
  3. Первая цель имела классовый дисбаланс. Как ты с этим справился?
  4. Какую функциональную инженерию вы делали?
  5. Вы удалили из текста все числовые значения. Разве не может быть, что описания должностей, содержащие числовые значения, такие как даты, означают, что это стажировка или что-то в этом роде?
  6. Вы придумали лучший способ, чем отбросить все неалфавитные значения?
  7. Вы использовали стемминг. Почему вы не использовали лемматизацию? Когда лемматизация полезна вместо стемминга и наоборот?
  8. Вы использовали встраивание слов с помощью Word2Vec. Это был предварительно обученный или вы обучили его на этих данных? Вам не кажется, что предварительно обученное встраивание было бы лучше?
  9. Использовали ли вы другие методы, такие как мешок слов, TF-IDF, N-граммы и т. Д.? Как они выступали?
  10. Вы усреднили векторы слов всех слов в предложении, чтобы сформировать полный вектор признаков. Вам не кажется, что это привело бы к потере информации? Какой лучший способ вы могли бы здесь использовать?
  11. На каких моделях вы пробовали запускать и каков был результат?
  12. Вы тоже использовали Deep Learning? Вам не кажется, что глубокое обучение могло дать лучшие результаты?
  13. Как, по вашему мнению, можно было улучшить показатели? Каковы причины низкого балла по целевой категории вакансии?

Ответив на большинство вышеперечисленных вопросов, я был утомлен! Я думал, что смогу добиться большего с моим решением, и попробовал больше техник, чтобы добиться лучших результатов. Тем не менее, я снова скрестил пальцы и надеялся получить заявку на 3-й раунд.

Раунд 3 (технический этап + этап подготовки): третий и последний этап был техническим этапом, который, как я думал, будет включен в мое резюме, проекты и навыки. Однако у интервьюера были другие планы.

Техническое интервью: Интервьюер спросил меня о моих сильных сторонах в машинном обучении, и я ответил, что это НЛП. Он начал раунд с того, что представил мне сценарий, согласно которому у нас есть клиент, у которого есть текстовые данные электронных писем, которые представляют собой отзывы клиентов об их продуктах. Он начал с полного жизненного цикла Data Science и прошел шаг за шагом до конца.

  1. Данные, которые у нас есть, не помечены, и мы хотим классифицировать их по различным классам в зависимости от отдела, к которому они принадлежат, и продукта, для которого они предназначены. Как вы поступите?
  2. После того, как вы пометили его, как вы его очистите и предварительно обработаете?
  3. Когда данные будут чистыми, какой следующий шаг вы предпримете, чтобы проанализировать их и добавить функции?
  4. Как вы его векторизуете? Какие способы вы знаете?
  5. Считаете ли вы, что данные могут быть искажены? Как с этим справиться?
  6. Что будет дальше? Как вы убедитесь, что у вас лучшая модель?
  7. Как можно сократить время обучения?
  8. После того, как модель будет завершена, как будет происходить развертывание и о чем следует позаботиться?
  9. Что и как будет проходить переподготовка?
  10. Какие бывают типы кластеризации?
  11. Как линейная модель делает предположения? В чем будет его недостаток?
  12. Как работают ансамбли?
  13. На какой облачной платформе вы работали? Из каких элементов состоит Azure?
  14. Как вы можете решить, важна ли функция во время регрессионного анализа?

Он задал еще несколько вопросов по статистике и концепциям машинного обучения. Он также немного углубился в Deep Learning и CNN. В целом я ответил на большинство вопросов, которые он мне задавал.

Я задал ему несколько вопросов о работе, клиентах и различных областях, на которые он любезно ответил.

Я был довольно уверен в своей заявке после того, как последний раунд прошел довольно хорошо. Снова скрестив пальцы.

Письмо с подтверждением и предложением: Момент, которого я ждал, наконец-то наступил, когда я получил подтверждающий звонок от отдела кадров, и я был счастлив! Тяжелая работа и настойчивость месяцев наконец принесли краски. Вскоре через несколько дней я получил письмо с предложением и с радостью принял его. Процесс не мог быть более плавным и совершенным. Тяжелая работа окупается!

Я получил множество запросов от сообщества относительно моего опыта собеседований, и я подумал, что этот блог воздаст должное им всем. Вскоре я буду писать блоги о подготовке резюме и стратегии поиска работы.

Вниманию читателя! Не прекращайте учиться сейчас. Освойте все важные концепции DSA с помощью самостоятельного курса DSA по приемлемой для студентов цене и будьте готовы к работе в отрасли. Чтобы завершить подготовку от изучения языка к DS Algo и многому другому, см. Полный курс подготовки к собеседованию . Если вы готовы, проверьте свои навыки с помощью серий тестов TCS, Wipro, Amazon и Microsoft.