Как новичку в области машинного обучения начать работу с Kaggle?

Опубликовано: 30 Июня, 2021

Вы увлечены наукой о данных? Как вы думаете, машинное обучение - это весело? Вы хотите узнать больше об этих полях, но не знаете, с чего начать? Что ж, начнем с Kaggle!

Kaggle - это онлайн-сообщество, посвященное науке о данных и машинному обучению, основанное Google в 2010 году. Это крупнейшее в мире сообщество данных, в которое входят как новички в области машинного обучения, так и одни из лучших исследователей в мире. Kaggle также является лучшим местом для начала экспериментов с данными, поскольку на нем размещено более 23 000 общедоступных наборов данных и более 200 000 общедоступных блокнотов, которые можно запускать в Интернете! А если этого недостаточно, Kaggle также проводит множество соревнований по Data Science с безумно высокими денежными призами (один раз было предложено 1,5 миллиона!).

Но по-прежнему существует много неправильных представлений о Kaggle. Некоторые считают, что это только веб-сайт, посвященный конкурсу, в то время как другие считают, что только эксперты могут использовать его в полной мере. По правде говоря, Kaggle также является платформой для новичков, поскольку она предоставляет такие ресурсы, как базовые курсы по Data Science и ML. А также есть базовые соревнования в категории «Начало работы», которые постепенно превращают новичков в экспертов. И именно поэтому эта статья представляет собой введение в Kaggle, а также путь, которым вы можете следовать, чтобы в конечном итоге стать полноценным экспертом в области науки о данных. А теперь приступим !!!

Ресурсы, доступные на Kaggle

На Kaggle доступно множество ресурсов, которые помогут вам стать специалистом в области науки о данных с самого начала. Итак, сначала давайте подробно рассмотрим все эти ресурсы.

1. Наборы данных. На Kaggle имеется около 23 000 общедоступных наборов данных, которые вы можете скачать бесплатно. Фактически, многие из этих наборов данных уже были загружены миллионы раз. Вы можете использовать поле поиска для поиска общедоступных наборов данных по любой теме, от здоровья до науки и популярных мультфильмов! Вы также можете создавать новые общедоступные наборы данных на Kaggle, и они могут принести вам медали, а также привести вас к продвинутым титулам Kaggle, таким как Expert, Master и Grandmaster .

2. Блокноты: Блокноты на Kaggle - это виртуальные блокноты Jupyter, которые можно запускать в облаке, поэтому их не нужно загружать. И они бесплатны! Таким образом, вы можете проверить код в записной книжке, отредактировать его или добавить изображения (в основном, все, что вы хотите!), Используя кнопку «Копировать и редактировать». Вы также можете создать новый блокнот с нуля (который также называется ядром), нажав кнопку «Новый блокнот» .

3. Курсы. На Kaggle есть целый набор бесплатных курсов, связанных с наукой о данных и машинным обучением, которые научат вас всему, что вам нужно знать, чтобы начать работу. Хотя эти курсы не являются глубоко углубленными, они являются самым быстрым способом начать практиковаться в Kaggle. Микрокурсы (так их называют) начинаются с основ, таких как Python, машинное обучение, SQL, визуализация данных, и переходят к более сложным темам, таким как Pandas, глубокое обучение, геопространственный анализ и т. Д.

4. Обсуждение: На Kaggle есть целый раздел Обсуждения, кроме возможности комментирования в Блокнотах. Этот раздел обсуждения включает форум Kaggle, QnA, где вы можете спросить совета у других специалистов по данным, « Начало работы», что является первой остановкой для новичков, « Отзывы о продукте» и « Обучение», что является QA, связанным с курсами Kaggle. Загляните в этот раздел, чтобы задать вопросы и узнать больше о Kaggle!

5. Соревнования: после того, как вы потратили некоторое время на наборы данных и записные книжки Kaggle, пора переходить к соревнованиям. Соревнования Kaggle - отличный способ проверить свои знания и увидеть свое место в мире науки о данных! Если вы новичок, вам следует начать с отработки старых задач соревнований, таких как «Титаник: машинное обучение от бедствий». После этого вы можете перейти к активным соревнованиям и, возможно, даже выиграть огромные денежные призы !!!

6. Блог: У Kaggle есть официальный блог, в котором можно найти интересные статьи - от «Будущее искусственного интеллекта в Африке» до «Обучение искусственного интеллекта танцевать» ! В блоге Kaggle также есть различные учебные пособия по таким темам, как нейронные сети, многомерные структуры данных и т. Д. Вы также можете проверить некоторые новости Kaggle здесь, такие как интервью с гроссмейстерами, обновления Kaggle и т. Д.

7. Работа: И, наконец, если вы нанимаете на работу или ищете работу, у Kaggle также есть Портал вакансий! Вы можете создать список вакансий, если вы нанимаете и получаете доступ к 1,5 миллионам специалистов по данным на Kaggle. И вы можете подписаться на доску вакансий Kaggle, если ищете работу, чтобы получить доступ к доступным вакансиям.

Основные принципы, которым нужно следовать при запуске Kaggle

Теперь, когда вы знаете все варианты, доступные в Kaggle, вот основные принципы, которым нужно следовать, когда вы только начинаете. Узнав больше об этом сообществе, вы сможете больше сосредоточиться на задачах и соревнованиях в соответствии со своим уровнем навыков.

1. Выберите язык программирования:

Единственное, что нельзя пропустить при запуске Kaggle, - это изучение языка программирования! Python и R в настоящее время являются двумя самыми известными языками программирования для науки о данных и машинного обучения. Если у вас опыт разработки, то Python будет для вас более легким вариантом, а если у вас аналитический опыт, предпочтительнее будет R.

Однако в настоящее время Python является самым популярным языком для машинного обучения. Фактически, существует множество библиотек Python, которые особенно полезны для искусственного интеллекта и машинного обучения, таких как Keras, TensorFlow, Scikit-learn и т. Д. Поэтому, если вы хотите изучить ML, лучше всего выучите Python! На Kaggle есть даже бесплатный курс Python, который научит вас большинству вещей, которые вам нужно знать, чтобы начать работу!

2. Изучите стандартные наборы данных

После того, как вы изучите Python (или R), следующим шагом будет овладение данными! Вы должны уметь управлять загрузкой данных и перемещением по ним для достижения оптимальных результатов. Для этого изучите различные модели, а также потренируйтесь на реальных наборах данных. Это также поможет вам понять, какие модели использовать в разных ситуациях.

На Kaggle есть около 23 000 общедоступных наборов данных, которые вы можете использовать на практике. Теперь, если вы новичок, очень сложно понять, какой набор данных хороший, а какой нет. Так что лучше всего начать свою практику со стандартных наборов данных, которые доступны, таких как «Записи пациентов с печенью в Индии», «Виды радужки», «Доход взрослого населения», «Рак груди в Висконсине» и т. Д.

3. Практикуйте старые задачи соревнований Kaggle.

Не то, чтобы у вас было какое-то общее представление о Kaggle, пора попрактиковаться в некоторых старых задачах о соревнованиях. Лучше всего, если вы проработаете популярные задачи Kaggle в последние несколько лет, чтобы иметь общее представление о том, чего ожидать. Решайте проблемы различного типа, а затем попробуйте улучшить свои решения. Вы можете сделать это, проверив сообщения на форуме, репозитории GitHub и сообщения в блогах-победителях по этой конкретной проблеме. Это научит вас решать задачу Kaggle наиболее эффективным образом, чтобы в будущем вы даже могли выигрывать соревнования!

Если вы не знаете, с каких проблем начать, вот несколько основных соревнований, которые помогут вам обрести уверенность.

  • Titanic: Machine Learning from Disaster: эта задача - очень популярный проект для начинающих по машинному обучению, поскольку для него доступно несколько учебных пособий. Так что это отличное введение в концепции машинного обучения, такие как исследование данных, разработка функций и настройка модели.
  • Digit Recognizer: это проект, который вы должны попробовать после того, как освоите основы Python и машинного обучения. Это отличное введение в захватывающий мир нейронных сетей с использованием классического набора данных, который включает предварительно извлеченные функции.
  • Первый шаг с Джулией: этот конкурс поможет вам выучить Джулию - сравнительно новый язык программирования. Первый шаг с Джулией также включает два руководства по Джулии, в первом из которых основное внимание уделяется основам языка, а во втором - алгоритму K ближайшего соседа.

Как и в этих трех соревнованиях, есть много старых соревнований, в которых вы можете практиковаться, особенно в категории «Начало работы».

4. Соревнуйтесь в активных соревнованиях Kaggle.

Теперь, когда вы освоились с Kaggle, пора начинать принимать участие в активных соревнованиях! Соревнования Kaggle славятся безумными призами, так что кто знает, что вы можете выиграть! Но лучше начинать с малого и сосредотачиваться только на одном соревновании за раз. Также изначально стремитесь хотя бы к месту в 25% лучших в частной таблице лидеров, так как выигрыш на старте является необоснованным ожиданием.

Кроме того, поделитесь своими мыслями и решениями на форуме, поскольку они могут привести к новым идеям и сотрудничеству в будущем. В конце концов, получайте удовольствие, ведь вы стремитесь учиться, а не побеждать. (И кто знает, вы тоже можете выиграть !!!)