Недавно я имел честь представить и модерировать доклад профессора Паскаля Пупарта о сегментации видеообъектов без учителя для глубокого обучения с подкреплением. Профессор Пупарт преподает в Университете Ватерлоо в Школе компьютерных наук. Он является преподавателем Waterloo AI и председателем канадского CIFAR AI в Технологическом институте Vector. Кроме того, профессор Пупарт является главным исследователем и основателем ИИ Waterloo RBC Borealis. По меньшей мере, для меня было большой честью модерировать выступление академика и лидера отрасли в области машинного обучения.

Эта статья построена вокруг того, что я узнал из этого события. Я также предоставлю некоторую общую информацию, которая, я думаю, будет интересна читателям этой статьи.

РАЗБИВКА МАШИННОГО ОБУЧЕНИЯ

Проще говоря, машинное обучение можно разделить на три части: обучение с учителем, обучение без учителя и обучение с подкреплением.

Обучение с учителем – наиболее часто используемый тип обучения в машинном обучении, когда входные и выходные данные подаются в модель. Входные и выходные данные помечаются для классификации, чтобы обеспечить основу обучения для будущей обработки данных. Термин «обучение с учителем» исходит из идеи, что алгоритм обучается на обучающем наборе данных, который можно рассматривать как учителя. Отрицательный аспект обучения с учителем заключается в том, что оно статично, и модель может быть настолько хороша, насколько хороши данные, подаваемые в модель.

Алгоритмы неконтролируемого машинного обучения выводят шаблоны из набора данных без ссылки на известные или помеченные результаты. В отличие от машинного обучения с учителем, методы машинного обучения без учителя нельзя напрямую применять к регрессии или задаче классификации, потому что вы понятия не имеете, какими могут быть значения выходных данных, что делает невозможным обучение алгоритма обычным способом. Вместо этого можно использовать неконтролируемое обучение для обнаружения базовой структуры данных.

Обучение с подкреплением – это более мощная и всеобъемлющая модель, которая более точно имитирует действия людей. Обучение с подкреплением позволяет компьютеру продолжать совершенствоваться и, таким образом, имеет значительно более высокие ограничения, чем контролируемое обучение. Обучение с подкреплением работает, используя вознаграждение в качестве скаляра для измерения успеха ввода, мы можем изменить модель, чтобы оптимизировать вознаграждение, чтобы создать модель, которая будет соответствовать нашей цели системы. Поскольку речь профессора Пупарта была сосредоточена на возможностях обучения с подкреплением, далее в этой статье я сосредоточусь на важности/применении этого типа машинного обучения.

Примеры и применение обучения с подкреплением:

Видеоигры

Alpha Go начиналась как задача контролируемого обучения с использованием большого набора данных, но затем превратилась в использование модели обучения с подкреплением, чтобы научиться играть самостоятельно. Это было международное мероприятие, которое продемонстрировало силу обучения с подкреплением. Система начинается с нейронной сети, которая ничего не знает об игре Го. Затем он играет в игры сам с собой, комбинируя эту нейронную сеть с мощным алгоритмом поиска. Во время игры нейронная сеть настраивается и обновляется, чтобы предсказывать ходы, а также возможного победителя игр.

Обучение с учителем всегда будет настолько хорошим, насколько хорош предоставленный набор данных, но обучение с подкреплением выходит за пределы ограничений, как это сделала модель AlphaGo при использовании обучения с подкреплением. Другие успехи в обучении с подкреплением в видеоиграх включают ATARI, MuJoCo, VizDoom, ComputerGo. Эти смоделированные среды позволяют нам создавать бесконечное количество данных.

Распространенный вопрос в современной индустрии видеоигр: «Как можно использовать обучение с подкреплением?». Игра загружается в глубокую нейронную сеть (миллионы параметров), а затем выполняет и действие, а затем получает вознаграждение. Разреженное вознаграждение – это вознаграждение, которое не указывает на большое количество отзывов модели. Нам нужны формирующие системы вознаграждения и достаточно данных, чтобы создать более сильную модель обучения с подкреплением.

Сети 5G

Мобильные сети 5G становятся все более популярными среди международных телекоммуникационных компаний. Для тех, кто читает эту статью, но не знает, что такое 5G, по сути, 5G сократит время, необходимое для отправки информации по беспроводной связи, примерно до одной миллисекунды (одной тысячной секунды). Это увеличит возможности подключения, повлияв на индустрию IoT. Возникает вопрос: «Что будет после 5G?». Профессор Пупарт общался с различными телекоммуникационными организациями и полагает, что после 5G сети будут эволюционировать от соединительных до интеллектуальных за счет использования обучения с подкреплением.

Мобильные телефоны

Современные смартфоны включают в себя большое количество технологий (программного и аппаратного обеспечения), которые развивались в геометрической прогрессии с момента их появления. Мы хотим знать: «Что дальше?». Профессор Пупарт считает, что телефоны начнут использовать обучение с подкреплением, чтобы телефоны научились обслуживать пользователя наиболее эффективным способом.

Финансовые услуги

В прошлом финансовые службы никогда не использовали искусственный интеллект или машинное обучение, однако современные финансовые организации используют модели контролируемого обучения. Профессор Пупартс, главный исследователь центра искусственного интеллекта RBC Borealis в Ватерлоо, считает, что будущие услуги будут более персонализированными, адаптивными и саморазвивающимися за счет внедрения обучения с подкреплением. (Похлопайте этой статье, если вы хотите увидеть больше контента, связанного с моим мнением о потенциальном влиянии машинного интеллекта на финансовое пространство)

Проблемы реализации

Есть три основных проблемы при внедрении обучения с подкреплением в реальном мире.

  1. Надежность
  2. Объяснимость
  3. Эффективность данных

Модели профессора Пупара

Основное внимание профессора Пупарта в докладе было сосредоточено на сегментации видеообъектов без учителя с помощью обучения с подкреплением. Профессор Пупарт вместе с двумя другими студентами работал над разработкой/построением следующих двух моделей:

MOREL (обучение с подкреплением, ориентированное на движение)

Он делает это в два отдельных этапа. Фаза 1 состоит из неконтролируемой сегментации объектов, при этом только 1% кадров представляют собой случайные действия. Фаза 2 — это более быстрая сегментация политик, основанная на сегментации и перемещении. Первый шаг на первом этапе — сосредоточиться на согласованности движений.

Сегментация надзора (снятие изображения и классификация всех различных типов объектов в кадре) очень трудоемка. Здесь вы можете использовать оптический поток (построение структуры из движения пикселей), благодаря чему, анализируя движение пикселей объектов, мы можем сегментировать движущиеся объекты. Оптический поток бесполезен для статических объектов. MOREL — это, по сути, модель, которая учится сегментировать движущиеся объекты и делает вывод об их движении без присмотра как часть техники RL без моделей.

Структура сети движения (SfM-Net)

Структура из фреймворков сети движения является хорошим примером глубокой нейронной сети, которая принимает в качестве входных данных два последовательных изображения и вычисляет геометрию движущихся объектов. Эта архитектура состоит из двух подсетей: одна предсказывает глубину каждого пикселя изображения, а другая предсказывает движение камеры и маскирует вместе со значениями поворота и смещения для движущихся объектов на изображении. Объединенная информация используется для вычисления оптического потока, который пытается восстановить один из входных кадров из другого. Минимизируя разницу L1 между реконструированным кадром и истинным кадром, вся сеть может быть обучена без учителя.

Изначально SfM-Net была сетью, разработанной исследователями из Google и предназначенной для сегментации объектов, движущихся в неконтролируемом кадре. Поток может быть представлен в виде вектора движения пикселя и может использоваться для изучения структуры движения пикселей в видео посредством построения системы для сегментации путем предсказания потока для следующего кадра и так далее, чтобы, наконец, обратное распространение (с использованием некоторого типа градиента с настроенными параметрами), чтобы полностью понять движение этих объектов. Команда профессора Пупарта изменила традиционную SfM-Net и внесла модификации в 2D SfM-Net.

Общий

Я прекрасно провел время, участвуя в этом выступлении, и очень рад будущим исследовательским докладам Группы машинного интеллекта Университета Торонто. Изучив и пообщавшись с людьми в течение моего года инженерных наук, я вижу прекрасную возможность для создания некоторых очень инновационных и эффективных проектов в ближайшем будущем. В настоящее время я активно работаю над развитием своих навыков программирования в классе, чтобы иметь возможность полностью понять, что происходит в области машинного интеллекта.

Вместо того, чтобы говорить об ИИ в целом на каждой конференции, полезнее сосредоточиться на одной конкретной теме и углубиться в эту тему. Учитывая мой недавний опыт участия во многих различных конференциях по ИИ, докладчики пытаются сосредоточиться на «общей картине», и разговор получается очень расплывчатым. Покинув конференцию, я, как правило, делаю одни и те же общие выводы. Профессор Пупар сосредоточил свое выступление на одной конкретной теме в этом исследовательском докладе, поскольку он сосредоточился на использовании сегментации видеообъектов без учителя для глубокого обучения с подкреплением. Благодаря этому разговору я смог получить четкое представление об этой теме. Если вы в будущем будете выступать на каком-либо мероприятии, отточите одну конкретную тему и углубитесь в эту тему, чтобы ваша аудитория получила большую пользу от одной конкретной темы.

Очень важно сначала развить очень глубокое понимание фундаментальных навыков программирования. Как только программист сможет понять, как работает искусство программирования на строгом уровне, он сможет оказать более сильное влияние на пространство машинного интеллекта. Часто сегодня многие молодые люди пытаются проникнуть в область машинного интеллекта, фактически не развивая соответствующие навыки программирования, необходимые для достижения успеха в этой области.

Я с нетерпением жду дальнейшего обучения, и если у кого-то, кто читает эту статью, есть какие-либо вопросы, не стесняйтесь писать мне в LinkedIn (https://www.linkedin.com/in/shrey-j-9869b213a/) или по электронной почте по адресу shreydjain. @mail.utoronto.ca

ИСПОЛЬЗОВАННАЯ ЛИТЕРАТУРА: