1. Иерархические пространственно-временные преобразователи для сегментации видеообъектов (arXiv)

Автор: Джон-Сан Ю, Хонджэ Ли, Сын-Вон Чжон.

Аннотация: В этой статье представлена ​​новая структура под названием HST для частично контролируемой сегментации видеообъектов (VOS). HST извлекает характеристики изображения и видео с помощью последних моделей Swin Transformer и Video Swin Transformer, чтобы наследовать их индуктивное смещение для пространственно-временной локализации, что необходимо для когерентной во времени VOS. Чтобы в полной мере использовать функции изображения и видео, HST использует функции изображения и видео как запрос и память соответственно. Применяя эффективные операции чтения памяти в различных масштабах, HST создает иерархические функции для точной реконструкции масок объектов. HST демонстрирует эффективность и надежность при работе со сложными сценариями с закрытыми и быстро движущимися объектами на загроможденном фоне. В частности, HST-B превосходит современных конкурентов по нескольким популярным тестам, например, YouTube-VOS (85,0%), DAVIS 2017 (85,9%) и DAVIS 2016 (94,0%).

2. Заявка ZJU ReLER на конкурс EPIC-KITCHEN Challenge 2023: полуконтролируемая сегментация видеообъектов (arXiv)

Автор: Цзяхао Ли, Юанью Сюй, Цзунсин Ян, И Ян, Юэтин Чжуан.

Аннотация: Платформа Associating Objects with Transformers (AOT) продемонстрировала исключительную производительность в широком диапазоне сложных сценариев сегментации видеообъектов. В этом исследовании мы представляем MSDeAOT, вариант серии AOT, который включает в себя преобразователи с несколькими масштабами функций. Используя иерархический Gated Propagation Module (GPM), MSDeAOT эффективно распространяет маски объектов из предыдущих кадров в текущий кадр, используя шкалу признаков с шагом 16. Кроме того, мы используем GPM в более точной шкале признаков с шагом 8, опережая повысить точность обнаружения и отслеживания мелких объектов. Благодаря внедрению дополнений во время тестирования и методов ансамбля моделей мы занимаем первое место в конкурсе EPIC-KITCHEN VISOR Semi-supervised Video Object Segmentation Challenge.