Последние разработки в области диффузионных моделей, часть 2 (расширенный ИИ)

Предварительно обученные диффузионные модели для унифицированного синтеза движений человека(arXiv)

Автор:Цзяньсинь Ма, Шуай Бай, Чан Чжоу

Аннотация: генеративное моделирование движений человека имеет широкое применение в компьютерной анимации, виртуальной реальности и робототехнике. Традиционные подходы разрабатывают отдельные модели для различных задач синтеза движения и обычно используют модель небольшого размера, чтобы избежать переобучения скудных данных, доступных в каждой настройке. Остается открытым вопрос, возможна ли разработка единой унифицированной модели, которая может 1) способствовать приобретению новых навыков за счет объединения навыков, полученных в результате выполнения нескольких задач, и 2) помочь увеличить емкость модели без переобучения за счет объединения нескольких источников данных. Унификация является сложной задачей, потому что 1) она включает в себя различные управляющие сигналы, а также цели с разной степенью детализации, и 2) наборы данных движения могут использовать разные скелеты и позы по умолчанию. В этой статье мы представляем MoFusion, фреймворк для унифицированного синтеза движений. MoFusion использует магистраль Transformer, чтобы облегчить включение различных управляющих сигналов посредством перекрестного внимания, и предварительно обучает магистраль в качестве диффузионной модели для поддержки многогранулярного синтеза, начиная от завершения движения части тела и заканчивая генерацией движения всего тела. Он использует обучаемый адаптер для учета различий между скелетами по умолчанию, используемыми для предварительной подготовки, и данными тонкой настройки. Эмпирические результаты показывают, что предварительное обучение жизненно важно для масштабирования размера модели без переобучения, и демонстрируют потенциал MoFusion в различных задачах, например, преобразование текста в движение, завершение движения и микширование нескольких управляющих сигналов с нуля. Страница проекта: \url{https://ofa-sys.github.io/MoFusion/}.

2.DiffusionInst: модель распространения для сегментации экземпляров(arXiv)

Автор: Чжансюань Гу, Хаосин Чен, Чжоэр Сюй, Цзюнь Лан, Чанхуа Мэн, Вэйцян Ван

Вывод: недавно диффузионные фреймворки достигли производительности, сравнимой с предыдущими современными моделями генерации изображений. Исследователям любопытны его варианты в задачах различения из-за мощного конвейера шумоподавления изображения. В этой статье предлагается DiffusionInst, новая структура, которая представляет экземпляры как фильтры с учетом экземпляров и формулирует сегментацию экземпляров как процесс шумоподавления от шума к фильтру. Модель обучена обращать вспять зашумленную землю без какого-либо индуктивного смещения от RPN. Во время вывода он принимает случайно сгенерированный фильтр в качестве входных данных и выводит маску в одноэтапном или многоэтапном шумоподавлении. Обширные экспериментальные результаты по COCO и LVIS показывают, что DiffusionInst обеспечивает конкурентоспособную производительность по сравнению с существующими моделями сегментации экземпляров. Мы надеемся, что наша работа может послужить простой, но эффективной основой, которая может вдохновить на разработку более эффективных сред распространения для решения сложных задач различения. Наш код доступен на https://github.com/chenhaoxing/DiffusionInst. △ Меньше

3. PhysDiff: диффузионная модель движения человека, основанная на физике(arXiv)

Автор:: Е Юань, Цзяминг Сун, Умар Икбал, Араш Вахдат, Ян Каутц.

Вывод:Модели диффузии с шумоподавлением открывают большие перспективы для создания разнообразных и реалистичных движений человека. Однако существующие модели диффузии движения в значительной степени игнорируют законы физики в процессе диффузии и часто генерируют физически неправдоподобные движения с ярко выраженными артефактами, такими как плавание, скольжение стопы и проникновение в землю. Это серьезно влияет на качество генерируемых движений и ограничивает их практическое применение. Чтобы решить эту проблему, мы представляем новую модель диффузии движения, основанную на физике (PhysDiff), которая включает физические ограничения в процесс диффузии. В частности, мы предлагаем основанный на физике модуль проецирования движения, который использует имитацию движения в физическом симуляторе для проецирования очищенного от шума движения шага диффузии в физически правдоподобное движение. Проецируемое движение далее используется на следующем этапе диффузии для управления процессом диффузии шумоподавления. Интуитивно понятно, что использование физики в нашей модели итеративно подтягивает движение к физически правдоподобному пространству. Эксперименты с крупномасштабными наборами данных о движении человека показывают, что наш подход обеспечивает самое современное качество движения и значительно улучшает физическую достоверность (>78% для всех наборов данных).

Последние разработки в области диффузионных моделей, часть 2 (расширенный ИИ)

Похожие вопросы