Компьютерное зрение. Лекция для Малого ШАДа Яндекса

Компьютерное зрение и распознавание изображений являются неотъемлемой частью (ИИ), который за прошедшие годы обрел огромную популярность. В январе этого года состоялась выставка CES 2017, где можно было посмотреть на последние достижения в этой сфере. Вот несколько интересных примеров использования компьютерного зрения, которые можно было увидеть на выставке.

8 примеров использования компьютерного зрения

Вероника Елкина

1. Беспилотные автомобили

Самые крупные стенды с компьютерным зрением принадлежат автомобильной промышленности. В конце концов, технологии беспилотных и полуавтономных автомобилей работают, во многом, благодаря компьютерному зрению.

Продукты компании NVIDIA, которая уже сделала большие шаги в области глубинного обучения, используются во многих беспилотных автомобилях. Например, суперкомпьютер NVIDIA Drive PX 2 уже служит базовой платформой для беспилотников , Volvo, Audi, BMW и Mercedes-Benz.

Технология искусственного восприятия DriveNet от NVIDIA представляет собой самообучаемое компьютерное зрение, работающее на основе нейронных сетей. С ее помощью лидары, радары, камеры и ультразвуковые датчики способны распознавать окружение, дорожную разметку, транспорт и многое другое.

3. Интерфейсы

Технологии отслеживания движения глаз с помощью компьютерного зрения используется не только в игровых ноутбуках, но и в обычных, и корпоративных компьютерах, для того чтобы ими могли управлять люди, которые не могут воспользоваться руками. Tobii Dynavox PCEye Mini представляет собой устройство размером с шариковую ручку, которое станет идеальным и незаметным аксессуаром для планшетов и ноутбуков. Также эта технология отслеживания движения глаз используется в новых игровых и обычных ноутбуках Asus и смартфонах Huawei.

Тем временем продолжает развиваться жестовое управление (технология компьютерного зрения, которое может распознавать особые движения руками). Теперь оно будет использоваться в будущих автомобилях BMW и Volkswagen.

Новый интерфейс HoloActive Touch позволяет пользователям управлять виртуальными 3D-экранами и нажимать кнопки в пространстве. Можно сказать, что он представляет собой простую версию самого настоящего голографического интерфейса Железного человека (он даже точно так же реагирует легкой вибрацией на нажатие элементов). Благодаря таким технологиям, как ManoMotion , можно будет легко добавить жестовое управление практически в любое устройство. Причем для получения контроля над виртуальным 3D-объектом с помощью жестов ManoMotion использует обычную 2D-камеру, так что вам не понадобится никакое дополнительное оборудование.

Устройство eyeSight’s Singlecue Gen 2 использует компьютерное зрение (распознавание жестов, анализ лица, определение действий) и позволяет управлять с помощью жестов телевизором, «умной» системой освещения и холодильниками.

Hayo

Краудфандинговый проект Hayo , пожалуй, является самым интересным новым интерфейсом. Эта технология позволяет создавать виртуальные средства управления по всему дому - просто подняв или опустив руку, вы можете увеличить или уменьшить громкость музыки, или же включить свет на кухне, взмахнув рукой над столешницей. Все это работает благодаря цилиндрическому устройству, использующему компьютерное зрение, а также встроенную камеру и датчики 3D, инфракрасного излучения и движения.

4. Бытовые приборы

Дорогие камеры , которые показывают, что находится внутри вашего холодильника, уже не кажутся такими революционными. Но что вы скажете о приложении, которое анализирует изображение со встроенной в холодильник камеры и сообщает, когда у вас заканчиваются определенные продукты?

Элегантное устройство FridgeCam от Smarter крепится к стенке холодильника и может определять, когда истекает срок годности, сообщать, что именно находится в холодильнике, и даже рекомендовать рецепты блюд из выбранных продуктов. Устройство продается по неожиданно доступной цене - всего за $100.

5. Цифровые вывески

Компьютерное зрение может изменить то, как выглядят баннеры и реклама в магазинах, музеях, стадионах и развлекательных парках.

На стенде Panasonic была представлена демоверсия технологии проецирования изображения на флаги. С помощью инфракрасных маркеров, невидимых для человеческого глаза, и стабилизации видео, эта технология может проецировать рекламу на висящие баннеры и даже на флаги, развевающиеся на ветру. Причем изображение будет выглядеть так, будто бы оно действительно на них напечатано.

6. Смартфоны и дополненная реальность

Многие говорили об игре как о первом массовом приложении с элементами (AR). Однако как и другие приложения, пытающиеся запрыгнуть на AR-поезд, эта игра больше использовала GPS и триангуляцию, чтобы у пользователей возникло ощущение, что объект находится прямо перед ними. Обычно в смартфонах практически не используются настоящие технологии компьютерного зрения.

Однако в ноябре Lenovo выпустила Phab2 - первый смартфон с поддержкой технологии Google Tango . Эта технология представляет собой комбинацию датчиков и ПО с компьютерным зрением, которая может распознавать изображения, видео и окружающий мир в реальном времени с помощью линзы фотокамеры.

На выставке CES Asus впервые представила ZenPhone AR - смартфон с поддержкой Tango и Daydream VR от Google. Смартфон не только может отслеживать движения, анализировать окружение и точно определять положение, но и использует процессор Qualcomm Snapdragon 821, который позволяет распределять загрузку данных компьютерного зрения. Все это помогает применять настоящие технологии дополненной реальности, которые на самом деле анализируют обстановку через камеру смартфона.

Позже в этом году выйдет Changhong H2 - первый смартфон со встроенным молекулярным сканером. Он собирает свет, который отражается от объекта и разбивается на спектр, и затем анализирует его химический состав. Благодаря программному обеспечению, использующему компьютерное зрение, полученная информация может использоваться для разных целей - от выписки лекарств и подсчета калорий до определения состояния кожи и расчета уровня упитанности.

15 сентября в Москве состоится конференция по большим данным Big Data Conference . В программе - бизнес-кейсы, технические решения и научные достижения лучших специалистов в этой области. Приглашаем всех, кто заинтересован в работе с большими данными и хочет их применять в реальном бизнесе. Следите за Big Data Conference в

Итак, компьютерное зрение — это набор методов, позволяющих обучить машину извлекать информацию из изображения или видео. Чтобы компьютер находил на изображениях определенные объекты, его необходимо научить. Для этого составляется огромная обучающая выборка, например, из фотографий, часть из которых содержат искомый объект, а другая часть — напротив, не содержит. Далее в дело вступает машинное обучение. Компьютер анализирует изображения из выборки, определяет, какие признаки и их комбинации указывают на наличие искомых объектов, и просчитывает их значимость.

После завершения обучения компьютерное зрение можно применять в деле. Для компьютера изображение - это набор пикселей, у каждого из которых есть своё значение яркости или цвета. Чтобы машина смогла получить представление о содержимом картинки, ее обрабатывают с помощью специальных алгоритмов. Сначала выявляют потенциально значимые места. Это можно делать несколькими способами. Например, исходное изображение несколько раз подвергают размытию по Гауссу, используя разный радиус размытия. Затем результаты сравнивают друг с другом. Это позволяет выявить наиболее контрастные фрагменты - яркие пятна и изломы линий.


После того как значимые места найдены, компьютер описывает их в числах. Запись фрагмента картинки в числовом виде называется дескриптором. С помощью дескрипторов можно достаточно точно сравнивать фрагменты изображения без использования самих фрагментов. Чтобы ускорить вычисления, компьютер проводит кластеризацию или распределение дескрипторов по группам. В один и тот же кластер попадают похожие дескрипторы с разных изображений. После кластеризации важным становится лишь номер кластера с дескрипторами, наиболее похожими на данный. Переход от дескриптора к номеру кластера называется квантованием, а сам номер кластера - квантованным дескриптором. Квантование существенно сокращает объём данных, которые необходимо обработать компьютеру.


Опираясь на квантованные дескрипторы, компьютер может сравнивать изображения и распознавать на них объекты. Он сопоставляет наборы квантованных дескрипторов с разных изображений и делает вывод о том, насколько они или их отдельные фрагменты похожи. Такое сравнение в том числе используется поисковыми системами для поиска по загруженной картинке.

С развитием мобильных устройств и видео технологий задачи компьютерного зрения становятся особенно актуальными. Сегодня компьютерное зрение активно применяется в таких областях, как медицина, картография, поиск, видеонаблюдение и беспилотные автомобили.

В данном курсе будут подробно разобраны решения основных задач компьютерного зрения: классификация изображений, распознавание и детекция объектов и сегментация изображений. Также мы затронем темы поиска изображений и распознавание рукописного ввода. В первой части курса слушатели познакомятся с классическими алгоритмами компьютерного зрения и разберут практические примеры с использованием библиотеки OpenCV. Вторая часть курса посвящена сверточным нейронным сетям. В этой части мы уделим особое внимание практическому применению нейронных сетей для задач компьютерного зрения. Также познакомимся с популярными библиотеками для работы с нейросетями такими как Keras и TensorFlow.

Преподаватель

Руслан Рахимов

Выпускник Московского Физико-Технического Института, Сколковского Института Науки и Технологий. Разработчик-исследователь в команде компьютерного зрения в компании Huawei.

Основные темы программы

  • Базовая теория: форматы, преобразование изображений с помощью фильтров, знакомство с библиотекой OpenCV
  • Выделение инвариантных признаков, стичинг и поиск похожих изображений
  • Сегментация изображений, детекция и трекинг объектов на изображении
  • Введение в нейронные сети
  • Сверточные сети для обработки изображений. Знакомство с фреймворком Keras
  • Обзор популярных архитектур сетей. Аугментация изображений и тюнинг обученных сетей
  • Обзор архитектур сетей для сегментации и детекции объектов на изображении.
  • Решение задачи распознавания рукописного ввода с помощью нейронных сетей

Начальные требования

Знание базовой программы курса «Высшая математика» и основ программирования (желательно Python).

Расписание занятий
С 25 сентября по 30 октября 2019 г.

«Ничто в биологии не имеет смысла, кроме как в свете эволюции», — написал в 1970-х ученый Феодосий Добржанский. Сегодня его знаменитый афоризм можно переформулировать: «Ничто в современном мире не имеет смысла, кроме как в свете искусственного интеллекта ». Искусственный интеллект, машинное обучение, компьютерное зрение и другие технологии применяются теперь везде, от беспилотных автомобилей до смартфонов.

Новое зрение

Развитие искусственного интеллекта по сути подарило нам еще один орган чувств: компьютерное зрение использует анализ миллионов изображений, чтобы люди и машины лучше ориентировались в мире. Компьютерное зрение помогает проводить операции хирургам, объезжать препятствия автомобилям и ловить покемонов детям.
Принцип работы компьютерного зрения становится понятным, если разобраться с тем, как видят сами люди, ведь машины мы создаем себе подобными. Сначала мы фиксируем взгляд на том или ином объекте, затем наш мозг анализирует его, распознавая формы, цвета и детали. Компьютерные алгоритмы действуют похожим образом: заранее обучившись на множестве картинок, они начинают «понимать», что именно попало в объектив камеры.

Мировой рынок компьютерного зрения к 2023 году превысит 25 млрд долларов.

Мировой рынок компьютерного зрения к 2023 году превысит 25 млрд долларов .
Технология становится всё более востребованной, уже сегодня она стала частью нашего повседневного опыта. В будущем компьютерное зрение продолжит создавать новые воз-можности для людей и менять целые отрасли.

Новый транспорт

В этом году Tesla обещает выпустить обновление программного обеспечения для своих машин, которое позволит включать режим полной автономности. До сих пор автопилот Tesla только ассистировал водителю, но скоро сможет совсем заменить его. Это лишь один пример революционных изменений в транспорте, которые компьютерное зрение принесет в отрасль. Автопроизводители и IT-компании давно включились в гонку за лидерство в беспилотном транспорте, судя по всему, автомобили без водителя станут обычным делом на городских улицах уже в ближайшие годы.

Компьютерное зрение в автомобилях анализирует информацию, полученную со множества сенсоров, камер и радаров. Алгоритмы распознают машины и пешеходов, дорожную разметку и знаки. Немецкая компания Continental использует компьютерное зрение и искусственный интеллект, чтобы предугадывать намерения пешеходов. Для полноценной автономности на дороге беспилотные машины должны научиться понимать действия всех участников движения и принимать правильные решения в разных ситуациях. Алгоритмы Continental способны заметить приближающегося пешехода, проанализировать его жесты и предсказать ближайшие действия — совсем как опытные водители, предугадывающие развитие дорожной ситуации.

Внедрение беспилотников будет принимать порой неожиданные формы. Ford уже тестирует прототип системы автономной доставки товаров. Его беспилотный фургон сможет забирать заказы в магазинах и кафе и доставлять их клиентам. Так компьютерное зрение оставит без работы не только таксистов, но и курьеров.

Новый ритейл

Сначала Amazon сделал популярными электронные книги, потом принялся за голосовых помощников, а теперь очередь дошла и до практического применения компьютерного зрения. Новый гаджет Echo Look — это как ассистент Alexa, только с «глазами». Echo Look дает своему владельцу модные советы: что надеть, с чем комбинировать разные предметы одежды и как организовать гардероб. Стилистам и персональным шоперам придется несладко: искусственный интеллект за 200 долларов справится с рекомендациями лучше любого человека.

Угадать точный размер детской обуви порой сложно, но приложение SpeedSmith решает эту проблему. Достаточно сфотографировать ногу ребенка, и программа быстро определит размер. Так компьютерное зрение делает жизнь родителей проще, избавляя от ошибок при покупках.
Компьютерное зрение поможет не только людям, но и компаниям. X5 Retail Group тестирует в нескольких магазинах «Перекресток» и «Пятерочка» программу, которая использует технологию для анализа заполняемости полок. Система распознает около 1500 наименований товаров и сообщает, когда пора добавить закончившийся продукт на полку. Кроме того, искусственный интеллект следит за очередями: если алгоритм понимает, что в очереди стоят больше пяти человек, управляющий магазином получает уведомление.

Всевидящее око

Сегодня компьютерное зрение внедряют пограничные службы, чтобы следить за нарушителями. Недавно исследователи представили новинку, которая анализирует изображения с установленной на дроне камеры и в режиме реального времени распознает драки и перестрелки на улицах. В MIT пошли еще дальше, обучив алгоритм распознавать движения людей за стеной.
Кому-то такое будущее покажется утопией, где вместо людей трудятся роботы. Кто-то увидит в этом антиутопию, где каждый человек находится под постоянным наблюдением. Очевидно одно: компьютерное зрение радикально меняет мир.

Похожие статьи