Публикации по теме 'speech-recognition'


Резюме: нормализация преобразователя для потокового распознавания речи
20 июля 2023 г., Глобальная нормализация преобразователя для потокового распознавания речи — Рогир С. ван Дален В статье предлагается метод улучшения распознавания потоковой речи с использованием модели преобразователя. Преобразователь популярен для потокового распознавания речи, но имеет математический недостаток — он ограничивает способность модели изменить свое мнение о прошлых прогнозах. Это связано с тем, что преобразователь использует локальную нормализацию (например, softmax),..

Расшифровка аудиофайлов никогда не была проще
Сегодняшний пост подготовлен доктором Мехди Аллахьяри. Исходный пост вы можете найти здесь . Задумывались ли вы когда-нибудь о " Как составить резюме аудиофайла?". Примерами аудиофайлов могут быть запись встречи или эпизод подкаста, и это лишь некоторые из них. Есть два основных этапа, которые показаны на диаграмме ниже: Автоматическое распознавание речи. На этом шаге создается расшифровка или текстовая версия аудиофайла. Модель суммирования. Он суммирует стенограмму с..

Почему оценка OpenAI Whisper не совсем заслуживает доверия
Выводы половины оценочных заданий сомнительны. Главный виновник? Нормализатор текста. В сентябре OpenAI выпустила Whisper , новую многоцелевую модель распознавания речи. Он обучен на больших наборах данных, чем предыдущая работа, и особенно хорош в задачах с нулевым выстрелом, то есть задачах, для которых он не был обучен. Исследовательская работа , выпущенная (но не рецензируемая) по модели, описывает, оценивает и…