Что такое языковые независимые вложения предложений?

Векторные представления предложений, в которых семантически сходные предложения (даже в разных языках) находятся ближе в пространстве вложений по сравнению с разнородными [1]. Это означает, что векторное представление данного английского предложения будет ближе к векторному представлению его перевода на хинди, чем представление любого другого непохожего английского/хинди предложения.

Приложения языково-независимых вложений

Такие виды встраивания помогают в межъязыковом переносе с нулевым или малым количеством выстрелов (обычно с языка с высоким ресурсом на язык с низким ресурсом), а также могут быть полезны в сценариях переключения кода [1]. Таким образом, в основном можно обучить классификатор с данными обучения английскому языку с такими вложениями и напрямую использовать его для другого языка, такого как немецкий, поскольку эти вложения обучаются таким образом, что языки с ограниченными ресурсами выигрывают от совместного обучения на нескольких языках.

Теперь давайте обсудим два недавних метода получения таких независимых от языка вложений предложений.

ЛАЗЕР [2]

Представления предложений, не зависящие от языка, т. е. LASER, был выпущен Facebook с поддержкой 93 языков, принадлежащих более чем к 30 различным семействам и написанных на 28 различных сценариях [1]. Независимый от языка кодировщик Bi-LSTM для построения вложений предложений связан с декодером и обучен на параллельном корпусе.

Вложения предложений генерируются кодировщиком и используются в декодере на каждом временном шаге. Между кодировщиком и декодером нет никакой связи, кроме связи через встраивание предложений, поэтому встраивание захватывает полную информацию о входной последовательности. Кроме того, информация о входном языке не предоставляется на уровне кодировщика, что помогает получить независимые от языка представления.

ЛаБСЭ [3]

Языковые независимые вложения предложений BERT, т. Е. LaBSE, были выпущены Google AI и поддерживают 109 языков. Многоязычный BERT адаптирован для создания вложений предложений, не зависящих от языка. Модель сочетает в себе предварительное обучение модели маскированного языка (MLM) и модели языка перевода (TLM) с задачей ранжирования перевода с использованием двунаправленных двойных кодировщиков [3].

Исходный и целевой тексты кодируются с использованием общей сети преобразования, а задача ранжирования перевода помогает получить аналогичные представления для исходного и целевого текста, которые имеют одинаковое значение.

Давайте попробуем проанализировать эмбеддинги, рассмотренные выше, для нескольких предложений и посмотреть, насколько большую языковую независимость они предлагают. Ниже приведены два английских предложения с их несколькими переводами:

Sent1_english = Не могли бы вы мне помочь?
Sent1_hindi = क्या आप कृपया यहाँ मेरी मदद कर सकते ह ैं?
Sent1_tamil = தயவுசெய்து எனக்கு இங்கு உதவ முடியுமா?
Sent1_marathi = तुम्ही मला इथे मदत करू शकता का ?

Sent2_english = Конечно, какая помощь вам нужна?
Sent2_hindi = ज़रूर, आपको क्या मदद चाहिए?
Sent2_tamil = ிச்ச யமாக, உங்களுக்கு என்ன உதவி தேவை?
Sent2_marathi = नक्कीच, तु म्हाला कोणती मदत हवी आहे?

Я загрузил вложения LASER и LaBSE для приведенных выше предложений и построил матрицу подобия, взяв попарное косинусное сходство. Здесь мы видим, что, используя вложения LaBSE, мы получаем больше сходства между предложением и его переводами по сравнению с LASER.

В целом встраивание предварительно обученных предложений, по-видимому, представляет собой хорошую степень независимости от языка, поскольку пары предложений с одинаковым значением и на разных языках более похожи по сравнению с парой предложений с одним и тем же языком и разным значением. Проверьте эту ссылку для блокнота Python, который использовался для построения рисунка 3.

Итак, если вы хотите обучить модель машинного обучения, которая не должна зависеть от языка, попробуйте эти вложения. Кроме того, если вы ищете межъязыковой перевод с языка с высоким ресурсом на язык с низким ресурсом для задачи, эти вложения могут быть весьма полезными.

Рекомендации

  1. Массовые многоязычные вложения предложений для нулевого межъязыкового перевода и не только от M Artetxe 2018.
  2. ЛАЗЕР Git Repo.
  3. Встраивание предложений BERT независимо от языка, автор F Feng 2020.
  4. Языконезависимые вложения предложений BERT в блоге Google AI.
  5. Преобразователи предложений — LaBSE