Опыт интервью ZS Associates для младшего специалиста по науке о данных
ZS Associates - одна из лучших консалтинговых фирм, в которой также есть отличная команда специалистов по анализу данных. Основная клиентура ZS - фармацевтические компании, но она также состоит из других доменов. Роли консультантов в ZS следуют нижеприведенной иерархии:
- Партнер
- Младший консультант
- Консультант
- Менеджер
Когда я учился в колледже, моей целью было работать с ZS. Я подал заявку на роль DAA (Decision Analytics), но тогда не смог ее взломать. ZS нанимает новичков и опытных кандидатов начального уровня на должность младшего специалиста по науке о данных (DSA). Когда я начал заниматься машинным обучением и наукой о данных, я составил список целевых компаний, частью которых я хотел бы стать. ZS была одной из них, учитывая ее трудовую этику и то, как она относится к своим сотрудникам.
Процесс подачи заявки: изначально я подал заявку на роль DSA в марте 2020 года. У меня не было никого, кого можно было бы попросить о направлении, поэтому я подал заявку непосредственно на их веб-сайте. Первый шаг в подаче заявки - это составление короткого списка вашего резюме. Поэтому убедитесь, что резюме соответствует работе, на которую вы претендуете. Я скоро буду вести блог о написании резюме. Возвращаясь к сути, я получил приглашение отправить тест на машинное обучение на Hackerearth после того, как мое резюме попало в короткий список.
Я отправил тест, но вскоре после того, как произошла изоляция, ZS заморозила прием на работу! Для меня это был облом, но я все равно продолжал расширять свои навыки.
Перенесемся в октябрь 2020 года, ZS снова начала нанимать сотрудников после 6-месячного перерыва. Я снова подал заявку, и мне позвонили, чтобы снова сдать тест. Процесс состоял из 3 раундов, и все они были раундами на выбывание.
Раунд 1 (задача по машинному обучению): первый раунд заключался в решении задачи машинного обучения и отправке прогнозов в формате CSV вместе с исходным кодом. Проблема машинного обучения, с которой я столкнулся, заключалась в классификации текста с описанием вакансий с портала вакансий фармацевтической компании. Моя задача состояла в том, чтобы создать модель машинного обучения, которая учитывает текст описания должности и предсказывает 2 цели: тип работы и категория должности. Заявка должна была быть CSV-файлом, содержащим прогнозы на основе тестовых данных.
Проблема и подход: Тип работы состоял из 6 классов, а Категория работы состояла из 11 классов. По сути, это была проблема многоклассовой классификации с двумя целями. Я выполнил следующие шаги, чтобы решить проблему и отправить решение и прогнозы:
- Понимание данных
- EDA
- Предварительная обработка текста
- Токенизация
- Стемминг / лемматизация
- Векторизация слов и создание вложений с помощью Word2Vec
- Моделирование
- Настройка гиперпараметров
- Получение прогнозов на основе тестовых данных
- Сохранение и отправка исходного кода и CSV
На выполнение этого задания на HackerEarth мне дали почти 2,5 дня. Я представил решение и скрестил пальцы.
Раунд 2 (обзор дела): мне позвонили из отдела кадров по поводу второго раунда через 4-5 дней после отправки задачи 1 раунда. Этот раунд был техническим обсуждением проблемы машинного обучения и моего решения. Мне пришлось сделать PPT, описывающий шаги, которые я сделал, полученные результаты и исходный код.
Интервью было запланировано на Zoom на 1 час и требовало, чтобы я показал свой экран и представил им свое решение. Интервью началось, и я шаг за шагом описал им все решение в своей презентации.
Обсуждение: После просмотра моей презентации от начала до конца мне почти не задавали вопросов. И я подумал, что это легко! Но этого не было. Когда я закончил объяснять решение, они начали задавать мне вопросы о моем подходе с первого шага. Некоторые из них были:
- Почему вы не делали больше EDA? Что еще ты мог сделать?
- Вы проигнорировали важность слов. Каким образом вы могли бы проанализировать важность слова и добавить для него еще одну особенность?
- Первая цель имела классовый дисбаланс. Как ты с этим справился?
- Какую функциональную инженерию вы делали?
- Вы удалили из текста все числовые значения. Разве не может быть, что описания должностей, содержащие числовые значения, такие как даты, означают, что это стажировка или что-то в этом роде?
- Вы придумали лучший способ, чем отбросить все неалфавитные значения?
- Вы использовали стемминг. Почему вы не использовали лемматизацию? Когда лемматизация полезна вместо стемминга и наоборот?
- Вы использовали встраивание слов с помощью Word2Vec. Это был предварительно обученный или вы обучили его на этих данных? Вам не кажется, что предварительно обученное встраивание было бы лучше?
- Использовали ли вы другие методы, такие как мешок слов, TF-IDF, N-граммы и т. Д.? Как они выступали?
- Вы усреднили векторы слов всех слов в предложении, чтобы сформировать полный вектор признаков. Вам не кажется, что это привело бы к потере информации? Какой лучший способ вы могли бы здесь использовать?
- На каких моделях вы пробовали запускать и каков был результат?
- Вы тоже использовали Deep Learning? Вам не кажется, что глубокое обучение могло дать лучшие результаты?
- Как, по вашему мнению, можно было улучшить показатели? Каковы причины низкого балла по целевой категории вакансии?
Ответив на большинство вышеперечисленных вопросов, я был утомлен! Я думал, что смогу добиться большего с моим решением, и попробовал больше техник, чтобы добиться лучших результатов. Тем не менее, я снова скрестил пальцы и надеялся получить заявку на 3-й раунд.
Раунд 3 (технический этап + этап подготовки): третий и последний этап был техническим этапом, который, как я думал, будет включен в мое резюме, проекты и навыки. Однако у интервьюера были другие планы.
Техническое интервью: Интервьюер спросил меня о моих сильных сторонах в машинном обучении, и я ответил, что это НЛП. Он начал раунд с того, что представил мне сценарий, согласно которому у нас есть клиент, у которого есть текстовые данные электронных писем, которые представляют собой отзывы клиентов об их продуктах. Он начал с полного жизненного цикла Data Science и прошел шаг за шагом до конца.
- Данные, которые у нас есть, не помечены, и мы хотим классифицировать их по различным классам в зависимости от отдела, к которому они принадлежат, и продукта, для которого они предназначены. Как вы поступите?
- После того, как вы пометили его, как вы его очистите и предварительно обработаете?
- Когда данные будут чистыми, какой следующий шаг вы предпримете, чтобы проанализировать их и добавить функции?
- Как вы его векторизуете? Какие способы вы знаете?
- Считаете ли вы, что данные могут быть искажены? Как с этим справиться?
- Что будет дальше? Как вы убедитесь, что у вас лучшая модель?
- Как можно сократить время обучения?
- После того, как модель будет завершена, как будет происходить развертывание и о чем следует позаботиться?
- Что и как будет проходить переподготовка?
- Какие бывают типы кластеризации?
- Как линейная модель делает предположения? В чем будет его недостаток?
- Как работают ансамбли?
- На какой облачной платформе вы работали? Из каких элементов состоит Azure?
- Как вы можете решить, важна ли функция во время регрессионного анализа?
Он задал еще несколько вопросов по статистике и концепциям машинного обучения. Он также немного углубился в Deep Learning и CNN. В целом я ответил на большинство вопросов, которые он мне задавал.
Я задал ему несколько вопросов о работе, клиентах и различных областях, на которые он любезно ответил.
Я был довольно уверен в своей заявке после того, как последний раунд прошел довольно хорошо. Снова скрестив пальцы.
Письмо с подтверждением и предложением: Момент, которого я ждал, наконец-то наступил, когда я получил подтверждающий звонок от отдела кадров, и я был счастлив! Тяжелая работа и настойчивость месяцев наконец принесли краски. Вскоре через несколько дней я получил письмо с предложением и с радостью принял его. Процесс не мог быть более плавным и совершенным. Тяжелая работа окупается!
Я получил множество запросов от сообщества относительно моего опыта собеседований, и я подумал, что этот блог воздаст должное им всем. Вскоре я буду писать блоги о подготовке резюме и стратегии поиска работы.
Вниманию читателя! Не прекращайте учиться сейчас. Освойте все важные концепции DSA с помощью самостоятельного курса DSA по приемлемой для студентов цене и будьте готовы к работе в отрасли. Чтобы завершить подготовку от изучения языка к DS Algo и многому другому, см. Полный курс подготовки к собеседованию . Если вы готовы, проверьте свои навыки с помощью серий тестов TCS, Wipro, Amazon и Microsoft.