Компьютерное зрение - Введение

Опубликовано: 15 Февраля, 2022

Вы когда-нибудь задумывались, как мы можем понимать то, что видим? Как мы видим, как кто-то идет, осознаем мы это или нет, используя необходимые знания, наш мозг понимает, что происходит, и сохраняет это как информацию. Представьте, что мы смотрим на что-то и полностью ничего не понимаем. В небытие. Страшно правда? Что ж, секрет того, как наш мозг интерпретирует изображения, которые мы видим, всегда интересовал меня.

Идея передать компьютеру человеческий интеллект и инстинкты кажется довольно легкой. Возможно, потому что это решается и очень маленькими детьми, но мы часто склонны забывать об ограничениях компьютеров по сравнению с нашими биологическими возможностями. Сложность восприятия зрения бесконечно варьируется и всегда динамична в случае самого человека, не говоря уже о компьютерном интеллекте.

Наш мозг имеет возможность идентифицировать объект, обрабатывать данные и решать, что делать, таким образом выполняя сложную задачу за доли секунды. Цель состоит в том, чтобы компьютеры могли делать то же самое. Следовательно, это область, которую можно назвать объединением искусственного интеллекта и машинного обучения, которое включает алгоритмы обучения и специализированные методы для интерпретации того, что видит компьютер.

Начало

Первоначально загадочная идея, над которой до сих пор работают мозговые штурмы технологических гигантов, считалась достаточно простой для летнего студенческого проекта теми самыми людьми, которые первыми создали искусственный интеллект. Вернемся к 1966 году, когда Сеймур Паперт и Марвин Мински из группы искусственного интеллекта Массачусетского технологического института начали проект, цель которого заключалась в создании системы, которая может анализировать сцену и идентифицировать объекты в ней.

Глубокое обучение

Наука, лежащая в основе компьютерного зрения, вращается вокруг искусственных нейронных сетей. Простыми словами? Алгоритмы, вдохновленные человеческим мозгом, которые учатся на больших объемах наборов данных, чтобы как можно точнее клонировать человеческие инстинкты. Эти алгоритмы обладают превосходной точностью, даже превосходящей человеческий уровень в некоторых задачах. Это просто подмножество Deep Learning, Deep Vision - это то, что движет компьютерным зрением.

Извлечение пикселей

OpenCV (компьютерное зрение с открытым исходным кодом), кроссплатформенная и бесплатная библиотека функций, основана на компьютерном зрении в реальном времени, которое поддерживает структуры глубокого обучения, которые помогают в обработке изображений и видео. В компьютерном зрении основным элементом является извлечение пикселей из изображения, чтобы изучить объекты и, таким образом, понять, что они содержат. Ниже приведены несколько ключевых аспектов, которые компьютерное зрение пытается распознать на фотографиях:

  • Обнаружение объекта: расположение объекта.
  • Распознавание объектов: объекты на изображении и их положение.
  • Классификация объекта: широкая категория, к которой принадлежит объект.
  • Сегментация объекта: пиксели, принадлежащие этому объекту.

Приложения и будущее

Компьютерное зрение охватывает огромную территорию, поскольку его приложения не знают границ. Это часто ускользает от нас, поскольку мы не замечаем роли компьютерного зрения в гаджетах, которые мы используем изо дня в день.

  • Смартфоны и Интернет: Google Lens, QR-коды, фильтры Snapchat (отслеживание лица), Night Sight, Face and Expression Detection, Lens Blur, Portrait mode, Google Photos (Face, Object and Scene Recognition), Google Maps (Image Stitching).
  • Медицинская визуализация: компьютерная томография / МРТ
  • Страхование: осмотр имущества и анализ повреждений
  • Оптическое распознавание символов (OCR)
  • Построение 3D-модели (фотограмметрия)
  • Слияние компьютерной графики с живыми актерами в фильмах

Компьютерное зрение - это постоянно развивающаяся область обучения со специализированными задачами и методами для целевых областей приложений. Я представляю, как его рыночная стоимость растет так же быстро, как и его возможности. Благодаря нашему интеллекту и интересу мы скоро сможем совместить наши способности с компьютерным зрением и достичь новых высот.