Подведение итогов встречи по компьютерному зрению

На прошлой неделе Voxel51 провел в январе 2023 года Встречу компьютерного зрения. В этом сообщении блога вы найдете записи итогов, основные моменты презентаций и вопросы и ответы, а также расписание предстоящих встреч, чтобы вы могли присоединиться к нам на будущем мероприятии. Надеюсь увидеть вас в ближайшее время!

Во-первых, спасибо за голосование за вашу любимую благотворительную организацию!

Вместо халявы мы дали участникам Meetup возможность помочь направить наши ежемесячные пожертвования на благотворительные цели. Благотворительной организацией, набравшей наибольшее количество голосов в этом месяце, стал Фонд борьбы со слепотой. Мы рады сделать им пожертвование в размере 200 долларов от имени сообщества компьютерного зрения!

Краткий обзор встречи по компьютерному зрению

Кэмерон Р. Вульф // Планирование гиперпараметров для компьютерного зрения

Видеоповтор
Резюме презентации
Вопросы и ответы
"Дополнительные ресурсы"

Жюльен Саймон // Введение в компьютерное зрение с трансформерами, обнимающими лица

Видеоповтор
Резюме презентации
Вопросы и ответы
"Дополнительные ресурсы"

Следующие шаги

Места встречи Computer Vision
Спикеры Computer Vision Meetup — февраль и март
"Втягиваться!"

Планирование гиперпараметров для компьютерного зрения

Видео повтор

Управляющее резюме

Кэмерон Р. Вулф, научный сотрудник Alegion и доктор философии. студент Университета Райса, делится некоторыми своими исследованиями по теме планирования гиперпараметров для компьютерного зрения. Для начала Кэмерон объясняет, что настройка гиперпараметров важна, потому что глубокое обучение может быть дорогостоящим в вычислительном отношении. Когда вы тренируетесь с набором данных, вы просматриваете все данные из нескольких эпох и в конце проверяете, хорошо ли работает ваша модель. Если это не так, то вам придется вернуться к первому этапу. Это создает петлю, в которой, если вы неправильно выбираете свои гиперпараметры, вы постоянно переобучаете свою сеть, пытаясь получить ту, которая работает хорошо. В то время как многие люди связывают вычислительные затраты на глубокое обучение с большими наборами данных и большими моделями, проблема усугубляется с неправильными гиперпараметрами, потому что вам приходится нести расходы на обучение вашей глубокой нейронной сети несколько раз.

В своей презентации Кэмерон описывает, как использовать расписания гиперпараметров, как их правильно настраивать, а также практические выводы для гиперпараметров в трех основных областях: скорость обучения, точность обучения и глубокое обучение видео.

Скорость обучения

Часть презентации, посвященная скорости обучения, основана на статье, которую Кэмерон написал вместе с Райс — REX: пересмотр бюджетного обучения с улучшенным расписанием. Идея заключается в том, что если вы рассматриваете разные суммы бюджета для обучения глубокой нейронной сети, одни графики скорости обучения работают лучше, чем другие.

Почему важен бюджет? Возможно, у вас есть вычислительный и/или денежный бюджет, и вам нужно тренироваться в его рамках; или, может быть, у вас есть крайний срок, и вы не можете тратить слишком много времени на обучение своей сети. Один из самых эффективных способов работы в рамках бюджета — просто сократить количество эпох обучения. Например, вместо того, чтобы обучать модель на 200 эпох в ImageNet, вы можете сократить ее до 90 и, вероятно, получить довольно хорошую производительность, если правильно установите гиперпараметры. В исследовании Кэмерона рассматривается, как правильно установить скорость обучения при обучении нейронных сетей в условиях ограниченного бюджета.

Чтобы изучить различные варианты скорости обучения в условиях ограниченного бюджета, Кэмерон разбивает графики скорости обучения на два компонента: профиль (непрерывная функция, которая моделирует снижение скорости обучения; классические примеры — косинусный, линейный, экспоненциальный и ступенчатый графики) и частота дискретизации (как часто вы хотите обновлять скорость обучения из этого профиля).

Чтобы задать сцену, Кэмерон показывает два классических примера — пошаговое расписание и линейное расписание.

Исследование Кэмерона вносит свой вклад в новый профиль снижения скорости обучения: обратный экспоненциальный или REX, который представляет собой график скорости обучения, который поддерживает высокую скорость обучения в течение некоторого времени, а затем снижает ее до более низкой скорости обучения в конце обучения.

Теперь вопрос: как работают пары скорости обучения и частоты дискретизации? Чтобы провести этот эксперимент, Кэмерон провел эксперименты для каждого профиля, чтобы найти оптимальную частоту дискретизации в семи различных доменах.

Исходя из этого, исследование берет оптимальные пары профиля и частоты дискретизации и видит, как они сравниваются с шестью различными графиками скорости обучения.

Основные выводы:

Пошаговые расписания (обычно используемые в компьютерном зрении) хорошо работают только в высокобюджетном режиме.
REX действительно хорошо работает в разных доменах и бюджетах.
Существует множество вариантов расписания скорости обучения; выбрать лучший на основе ваших настроек — количество эпох, домен или проблема (классификация, обнаружение и т. д.)

Точность обучения

Поскольку обучение глубоких нейронных сетей требует больших вычислительных ресурсов, еще одним способом снижения затрат может быть поиск лучших графиков обучения нейронных сетей с низкой точностью. В частности, в этой презентации и исследовании, над которым он работает, Кэмерон рассматривает обучение циклической точности (CPT) (не фиксированное или статическое обучение), при котором точность, используемая для нейронной сети, циклически меняется на протяжении всего процесса обучения.

Идея обучения с низкой точностью заключается в том, что вместо обучения вашей нейронной сети с обычной 32-битной точностью вы можете снизить ее до 16 бит, 8 бит или, может быть, даже ниже, что сэкономит затраты на вычисления. Как это работает, когда вы выполняете прямой проход, вы квантуете свою активацию и веса с более низкой точностью, прежде чем выполнять умножение матрицы в прямом проходе, который быстрее. Вы можете сделать то же самое в обратном проходе, который имеет два матричных умножения (одно для вычисления вашего обновления веса и одно для распространения градиента на предыдущий слой), что экономит вдвое больше вычислений.

Вопрос, который решает исследование Кэмерона, заключается в следующем: каковы наилучшие графики гиперпараметров для CPT для достижения выгод (снижение затрат или повышение производительности)? Это исследование следует подходу, аналогичному исследованию REX, путем разложения точных графиков на части (в данном случае на три).

Кэмерон отмечает, что сложнее всего выбрать повторяющийся или треугольный график. Чтобы лучше понять, что подразумевается под повторяющимися или треугольными расписаниями, Кэмерон показывает набор из 10 (повторяющихся и отраженных), который вы можете увидеть ниже.

В исследовании Кэмерона 10 расписаний объединены в три группы (большие расписания, средние расписания и малые расписания) в зависимости от того, какое влияние они оказывают на величину экономии вычислительных ресурсов, которую вы получаете. Вот сопоставление -> большой = RR и RTH; среда = LR, LT, CR, CT, RTV, ETV; маленький = ER, ETH. (Возможно, вы захотите вернуться к этим сопоставлениям позже, когда будете рассматривать выводы о точности позже в этом посте.)

Кэмерон рассказывает нам о некоторых основных моментах исследования:

Как правило, существует корреляция между производительностью модели и объемом обучающих вычислений, которые мы используем. Кэмерон добавляет: «Если мы используем меньше вычислительных ресурсов или больше экономим вычислительные ресурсы, мы, как правило, получаем немного худшую производительность, и наоборот. Таким образом, несмотря на то, что мы можем использовать эти альтернативные графики точности, во многих случаях мы не получаем эти вычислительные преимущества бесплатно. Если мы хотим, чтобы наше обучение проходило быстрее, мы, вероятно, получим модель, которая работает не так хорошо».
В некоторых случаях использование альтернативных графиков (кроме косинусных графиков) может быть полезным. Например, при обучении ResNet 18 в ImageNet наилучшая производительность достигается при экспоненциальном графике.
Некоторые настройки чувствительны к большому количеству квантований, поэтому вы не всегда можете обучить сеть с очень низкой точностью; это зависит от домена. Поэтому будьте осторожны с низкой точностью, с которой вы собираетесь тренироваться.

Ключевые выводы для точности обучения:

Вы можете многого добиться, исследуя альтернативные графики гиперпараметров для циклической тренировки точности.
Вот руководство Кэмерона о том, как выбрать один:
Используйте небольшие расписания, чтобы минимизировать затраты на обучение
Используйте большие расписания, чтобы максимизировать производительность модели
Используйте средние графики, чтобы найти баланс

А теперь подвох: ни один из них на самом деле не может быть использован практически прямо сейчас, потому что текущее оборудование поддерживает обучение с низкой точностью только на определенных уровнях. Кэмерон рекомендует: Сейчас лучше всего использовать для обучения с низкой точностью то, что называется Apex, которое реализует обучение с 16-битной точностью с минимальными изменениями кода. Для получения дополнительной информации ознакомьтесь со статьей Кэмерона: Quantized Training with Deep Networks.

Видео глубокое обучение

Последняя часть презентации Кэмерона посвящена глубокому обучению видео и тому, как циклические размеры пакетов могут ускорить время обучения настенных часов. В этом разделе Кэмерон знакомит нас с некоторыми предысториями из статьи Сети SlowFast для распознавания видео. Идея состоит в том, что вместо одной 3D CNN, которую мы свернем по всему входному видео на нескольких слоях, мы разделим нашу сеть на два разных модуля: Медленный путь, который отвечает за захват пространственных или семантических характеристик; и Fast Pathway, который отвечает за захват движущихся объектов.

Ответ, предложенный в статье Многосеточный метод для эффективного обучения видеомоделей, заключается в изменении размера мини-пакета в соответствии с графиком гиперпараметров.

На изображении ниже справа вы можете увидеть результаты обучения набору данных Kinetics на одном графическом процессоре с использованием этого метода обучения с несколькими сетками. Это приводит к повышению эффективности — такая же производительность всего за два дня вместо почти целой недели!

Заключение

Графики гиперпараметров являются фундаментальными. Вы можете применять их в различных сценариях, и в конечном итоге они будут полезны для получения преимуществ (уменьшение вычислительных ресурсов, повышение производительности, сокращение времени обучения и т. д.).

Резюме вопросов и ответов

Вот краткий обзор живых вопросов и ответов из этой презентации во время виртуальной встречи Computer Vision Meetup:

В: Есть ли какие-либо комментарии относительно REX в отношении переноса обучения?

A: Мы не проверяли это в данном случае, но это было бы очень интересно провести. Много раз я обнаруживал, что при точной настройке сети на нисходящем наборе данных, если вы начинаете со слишком высокой скоростью обучения, это может вызвать проблемы. Поэтому я предполагаю, что REX подходит для трансферного обучения, но вы должны быть осторожны с установкой начальной скорости обучения, чтобы убедиться, что она не слишком высока. Но опять же, было бы неплохо проверить.

В: В дополнение к проблемной области и бюджету, видите ли вы, что только сам набор данных (размер, разнообразие и т. д.) может заставить один LR работать лучше или хуже?

О: Да, все эти факторы необходимо учитывать при выборе гиперпараметров. Таким образом, мы можем свести это к вопросу: если вы обучаете нейронную сеть на одном наборе данных, а затем переключаете ее и пытаетесь обучить на другом наборе данных, собираетесь ли вы использовать те же самые гиперпараметры из коробки? Возможно нет. Вам придется протестировать несколько вещей и посмотреть, что работает. Когда вы меняете домены или наборы данных, вам придется выполнять дополнительную настройку и выяснять, что лучше всего подходит для вашего нового набора данных.

В: Как вы думаете, когда мы увидим выпуклые оптимизаторы для произвольных нейронных сетей?

Нейронные сети по своей природе невыпуклы. Но в то же время, несмотря на то, что задача оптимизации с нейронными сетями невыпуклая, для многих алгоритмов оптимизации все доказательства находятся в выпуклых или упрощенных настройках. Литература по анализу невыпуклых скоростей сходимости намного сложнее, чем выпуклое доказательство. Так что обычно кажется, что для глубокого обучения мы можем взять интуицию из выпуклой оптимизации и посмотреть, сработает ли она. А в случае с SGD, например, это работает очень хорошо.

В: Как мы инициируем REX?

С REX вы выбираете начальную скорость обучения, у вас есть график, по которому эта скорость обучения варьируется, а затем от начала до конца вашего обучения вы уменьшаете скорость обучения от первоначального выбора до примерно в 10 раз ниже, чем это первоначальный выбор или, может быть, 100x в соответствии с этим графиком. Таким образом, инициация не требуется, это просто фиксированный профиль функции, из-за которого мы снижаем скорость обучения.

В: В дополнение к рандомизации тренировочных наборов, добавляете ли вы преднамеренные «помехи»?

О: Нет, на самом деле все, что мы делаем здесь, — это выбираем кучу разных доменов, кучу разных общедоступных наборов данных, а затем запускаем обучение по всем этим, чтобы увидеть, какие графики скорости обучения работают лучше всего. Я бы сказал, что все настройки довольно стандартны; мы не делаем ничего лишнего, просто проводим обучение на общедоступных наборах данных.

Вопрос. Обучение с низкой точностью также называется обучением с учетом квантования?

О: Обучение с учетом квантования относится к методам, которые повышают производительность вашей сети, когда вы делаете ее меньше в конце, чтобы вы могли развернуть ее, например, на пограничном устройстве. Целью этого является обучение сети таким образом, чтобы при ее квантовании она по-прежнему хорошо работала на границе, потому что при преобразовании ее в представление с низкой точностью используется меньше памяти, чтобы ее можно было развернуть. Разница между этим и тем, что я делаю здесь, заключается в том, что циклическое точное обучение (CPT) не сосредоточено на попытке создать меньшую нейронную сеть в конце, оно сосредоточено на попытке снизить затраты на обучение в целом. Мы выполняем процесс обучения с низкой точностью, чтобы сэкономить вычислительные затраты во время обучения. Мы не обязательно пытаемся квантовать сеть, чтобы в конце сделать ее меньше. Тем не менее, может существовать взаимосвязь между обучением с низкой точностью и обучением с учетом квантования, так что выполнение обучения с низкой точностью, подобное этому, может быть хорошим методом обучения с учетом квантования, когда эти сети легче квантовать в конце.

Является ли CPT теоретическим (например, полностью реализованным в программном обеспечении)?

A: Верно, аппаратной поддержки для этого пока нет. Я надеюсь, что аппаратное обеспечение в конечном итоге догонит его, но сейчас лучше всего использовать Apex, потому что вы можете обучить его с точностью до 16 с плавающей запятой, его легко реализовать, и он увеличит скорость без потери производительности, хотя проверить Чтобы убедиться.

В: Есть ли компромиссы/недостатки низкой точности обучения?

Да. Существует корреляция между производительностью модели и обучающими вычислениями. Поэтому, если вы слишком сильно снижаете точность, вы поплатитесь за это — производительность вашей сети ухудшится. Это относительно обучения с фиксированным, но более низким уровнем точности. Но если вы выберете другую стратегию, которая не так агрессивно квантизирует, вы можете повысить производительность модели при одновременной экономии вычислительных ресурсов. В своем выступлении я поделился примером случая ImageNet по сравнению с базовыми показателями, где график экспоненциальной точности обеспечивает как сокращение объема вычислений по сравнению с базовыми уровнями, так и повышение производительности. Так что это зависит; есть компромисс, если вы слишком много квантоваете, но есть определенные случаи, когда вы действительно можете повысить производительность и сэкономить затраты на обучение. Это просто зависит от сценария.

Дополнительные ресурсы

Ознакомьтесь с дополнительными ресурсами в презентации:

Транскрипт разговора
Ссылки на презентации (на статьи, статьи и т.п.)
Все ссылки (рассылка, Twitter, компания, лаборатория и т.д.)

Спасибо Кэмерон от имени всего сообщества Computer Vision Meetup за то, что поделились своим исследованием и помогли нам лучше понять, как подходить к настройке гиперпараметров!