20 июля 2023 г., Глобальная нормализация преобразователя для потокового распознавания речи — Рогир С. ван Дален

В статье предлагается метод улучшения распознавания потоковой речи с использованием модели преобразователя. Преобразователь популярен для потокового распознавания речи, но имеет математический недостаток — он ограничивает способность модели изменить свое мнение о прошлых прогнозах. Это связано с тем, что преобразователь использует локальную нормализацию (например, softmax), которая приводит к тому, что вероятности для каждого вывода в сумме равны 1.

Чтобы исправить это, в документе предлагается заменить локальную нормализацию на глобальную нормализацию по всей выходной последовательности. Однако вычисление термина глобальной нормализации неразрешимо для модели бесконечной истории преобразователя.

Предыдущая работа аппроксимировала модель, чтобы сделать глобальную нормализацию приемлемой, но сильно ухудшила производительность. В этой статье сохраняется полная модель, а вместо этого аппроксимируется термин глобальной нормализации во время обучения с использованием N-наилучшего списка гипотез.

Предлагаемый метод оценивается на LibriSpeech. Ключевые результаты:

  • Глобальная нормализация снижает количество ошибок в словах на 9–11 % по сравнению с мощным базовым преобразователем, сокращая почти вдвое отставание от производительности без потоковой передачи.
  • Задержка при передаче слов сокращается до 50 мс, поскольку модель может изменить свое мнение относительно прошлых прогнозов.
  • Предлагаемый метод аппроксимации обучает полную современную модель, в отличие от предыдущей работы, которая ухудшила модель.

Метод значительно замедляет обучение из-за N-наилучшего приближения. Но в целом он обеспечивает эффективный способ применения глобальной нормализации к потоковым преобразователям без ущерба для точности или емкости модели.

раскрытие информации: Автор использует ИИ для создания черновиков резюме.