1. Языковые модели нейронных кодеков — это синтезаторы преобразования текста в речь с нулевым выстрелом (arXiv)

Автор: Чэнъи Ван, Саньюань Чен, Юй Ву, Цзыцян Чжан, Лун Чжоу, Шуцзе Лю, Чжо Чэнь, Янцин Лю, Хуамин Ван, Цзиньюй. Ли», Лэй Хэ, Шэн Чжао, Фуру Вэй.

Аннотация: Мы представляем подход к языковому моделированию для синтеза речи (TTS). В частности, мы обучаем модель языка нейронного кодека (называемую Vall-E) с использованием дискретных кодов, полученных из готовой модели нейронного аудиокодека, и рассматриваем TTS как задачу моделирования условного языка, а не непрерывную регрессию сигнала, как в предыдущей работе. На этапе предварительного обучения мы масштабируем данные обучения TTS до 60 000 часов английской речи, что в сотни раз больше, чем в существующих системах. Vall-E обладает возможностями обучения в контексте и может использоваться для синтеза высококачественной персонализированной речи с помощью всего 3-секундной зарегистрированной записи невидимого говорящего в качестве акустической подсказки. Результаты эксперимента показывают, что Vall-E значительно превосходит современную систему TTS с нулевым выстрелом с точки зрения естественности речи и сходства говорящих. Кроме того, мы обнаружили, что Vall-E может сохранять эмоции говорящего и акустическую среду акустической подсказки в синтезе. Смотрите https://aka.ms/valle для демонстрации нашей работы.

2. Атрибуция синтезатора речи на основе преобразователя в сценарии с открытым набором (arXiv)

Автор: Эмили Р. Бартусяк, Эдвард Дж. Делп

Аннотация: Методы синтеза речи могут создавать реалистично звучащую речь, которую можно использовать для мошенничества, спуфинга и кампаний по дезинформации. Криминалистические методы, обнаруживающие синтезированную речь, важны для защиты от таких атак. Криминалистические методы атрибуции предоставляют еще больше информации о природе синтезированных речевых сигналов, поскольку они определяют конкретный метод синтеза речи (т. е. синтезатор речи), используемый для создания речевого сигнала. В связи с увеличением числа реалистично звучащих синтезаторов речи мы предлагаем метод атрибуции речи, который обобщается на новые синтезаторы, не замеченные во время обучения. Для этого мы исследуем атрибуцию синтезатора речи как в сценарии с закрытым набором, так и в сценарии с открытым набором. Другими словами, мы считаем одни синтезаторы речи «известными» синтезаторами (т. е. частью закрытого набора), а другие — «неизвестными» синтезаторами (т. е. частью открытого набора). Мы представляем речевые сигналы в виде спектрограмм и обучаем предложенный нами метод, известный как компактный преобразователь атрибуции (CAT), на закрытом наборе для многоклассовой классификации. Затем мы расширяем наш анализ на открытый набор, чтобы отнести синтезированные речевые сигналы как к известным, так и к неизвестным синтезаторам. Мы используем t-распределенное стохастическое вложение соседей (tSNE) в скрытом пространстве обученного CAT, чтобы различать каждый неизвестный синтезатор. Кроме того, мы изучаем формулировки потерь поли-1, чтобы улучшить результаты атрибуции. Предлагаемый нами подход успешно приписывает синтезированные речевые сигналы соответствующим синтезаторам речи как в закрытых, так и в открытых сценариях.