1. Эмпирическое исследование с использованием лингвистических знаний о заполненных паузах для синтеза персонализированной спонтанной речи(arXiv)

Автор: Юта Мацунага, Такааки Саэки, Шинносукэ Такамичи, Хироши Саруватари.

Аннотация: мы представляем всестороннее эмпирическое исследование синтеза персонализированной спонтанной речи на основе лингвистических знаний. С появлением клонирования голоса для синтеза речи в стиле чтения требуется новая парадигма клонирования голоса для человекоподобного и спонтанного синтеза речи. Поэтому мы фокусируемся на персонализированном спонтанном синтезе речи, который может клонировать как тембр голоса человека, так и нарушение речи. В частности, мы имеем дело с заполненными паузами, основным источником нарушения речи, который, как известно, играет важную роль в формировании речи и общении в психологии и лингвистике. Для сравнительной оценки методов персонализированного ввода заполненной паузы и неперсонализированного прогнозирования заполненной паузы мы разработали метод синтеза речи с неперсонализированным внешним предиктором заполненной паузы, обученным с помощью корпуса с несколькими динамиками. Результаты уточняют позиционно-словную перепутанность заполненных пауз, т. е. необходимость точного прогнозирования позиций для естественности и необходимость точного прогнозирования слов для индивидуальности при оценке синтезированной речи.

2.Обзор синтеза и преобразования аффективной речи в эпоху глубокого обучения(arXiv)

Автор:Андреас Триантафиллопулос, Бьорн В. Шуллер, Гекче Иймен, Метин Сезгин, Сянхэн Хэ, Цзыцзян Ян, Панагиотис Циракис, Шо Лю , Сильван Мертес, Элизабет Андре, Руибо Фу, Цзяньхуа Тао

Аннотация . Речь — это основной способ человеческого общения, и ее синтез уже давно является основным приоритетом в исследованиях взаимодействия человека с компьютером. В последние годы машинам удалось освоить искусство генерации речи, понятной человеку. Но языковое содержание высказывания охватывает лишь часть его значения. Аффект, или экспрессивность, обладает способностью превращать речь в средство, способное передавать сокровенные мысли, чувства и эмоции — аспекты, которые необходимы для увлекательного и естественного межличностного общения. В то время как цель придания выразительности синтезированным высказываниям до сих пор оставалась недостижимой, после недавних достижений в синтезе речи, сдвиг парадигмы также идет полным ходом в области аффективного синтеза речи и преобразования. Глубокое обучение как технология, которая лежит в основе большинства последних достижений в области искусственного интеллекта, возглавляет эти усилия. В настоящем обзоре мы обрисовываем текущие тенденции и обобщаем современные подходы, пытаясь дать всесторонний обзор этой интересной области.

3.Раздельное моделирование произношения и просодии в основанном на метаобучении многоязычном синтезе речи(arXiv)

Автор:Юкунь Пэн, Чжэньхуа Лин

Аннотация: в этой статье представлен метод разделения произношения и моделирования просодии для повышения производительности многоязычного синтеза речи на основе метаобучения. Базовый метод синтеза метаобучения использует один текстовый кодировщик с генератором параметров, зависящим от языковых вложений, и один декодер для прогнозирования мел-спектрограмм для всех языков. Напротив, предлагаемый нами метод проектирует структуру модели с двумя потоками, которая содержит два кодировщика и два декодера для моделирования произношения и просодии соответственно, учитывая, что знание произношения и знание просодии должны по-разному распределяться между языками. В наших экспериментах предложенный нами метод эффективно улучшил разборчивость и естественность многоязычного синтеза речи по сравнению с базовым методом синтеза метаобучения.