1. Обнаружение кораблей Sar на основе Swin Transformer и сети Pyramid Feature Enhancement (arXiv)

Автор: Сяо Кэ, Сяолин Чжан, Тяньвэнь Чжан, Цзюнь Ши, Шуньцзюнь Вэй.

Аннотация: С развитием сверточных нейронных сетей (CNN) такие CNN, как VGG-16 и ResNet-50, широко используются в качестве основы для обнаружения кораблей SAR. Тем не менее, магистраль на основе CNN трудно моделировать дальние зависимости, что приводит к отсутствию достаточно качественной семантической информации в картах признаков мелких слоев, что приводит к низкой производительности обнаружения в сложных фоновых случаях и случаях небольших кораблей. Для решения этих проблем мы предлагаем метод обнаружения судов SAR, основанный на Swin Transformer и Feature Enhancement Feature Pyramid Network (FEFPN). Swin Transformer служит основой для моделирования долгосрочных зависимостей и создания иерархических карт функций. FEFPN предлагается для дальнейшего улучшения качества карт объектов путем постепенного улучшения семантической информации карт объектов на всех уровнях, особенно карт объектов в неглубоких слоях. Эксперименты, проведенные на наборе данных обнаружения судов SAR (SSDD), выявили преимущества предложенных нами методов.

2.Frido: Feature Pyramid Diffusion для синтеза изображения сложной сцены (arXiv)

Автор: Ван-Цюань Фан, Йен-Чунь Чен, Дундон Чен, Ю Ченг, Лу Юань, Ю-Чян Франк Ван.

Аннотация: Диффузионные модели (DM) продемонстрировали большой потенциал для высококачественного синтеза изображений. Однако, когда дело доходит до создания изображений со сложными сценами, то, как правильно описать как глобальные структуры изображения, так и детали объекта, остается сложной задачей. В этой статье мы представляем Frido, модель Feature Pyramid Diffusion, выполняющую многомасштабный процесс грубого и точного шумоподавления для синтеза изображений. Наша модель разлагает входное изображение на векторные квантованные признаки, зависящие от масштаба, после чего выполняется стробирование от грубого к точному для получения выходного изображения. Во время описанного выше этапа обучения многомасштабному представлению можно дополнительно использовать дополнительные входные условия, такие как текст, график сцены или макет изображения. Таким образом, Frido можно также применять для условного или кросс-модального синтеза изображений. Мы проводим обширные эксперименты над различными задачами создания изображений без условий и условий, начиная от синтеза текста и изображения, макета и изображения, графа сцены и изображения и заканчивая меткой и изображением. В частности, мы получили самые современные оценки FID по пяти тестам, а именно: макет-изображение в COCO и OpenImages, график-сцена-изображение в COCO и Visual Genome и этикетка-изображение в COCO. . Код доступен на https://github.com/davidhalladay/Frid