Регуляризация FLOP: изучение разреженных вложений

Помимо популярного поиска информации на основе «плотного векторного представления», еще одним популярным способом поиска информации является встраивание на основе нейронной сети и поиск на основе «словарного представления».

При поиске на основе лексикона входной запрос и документы представляются с использованием разреженного вектора размером с число лексиконов [2] . Для большинства токенизаторов количество словарей исчисляется десятками тысяч. (Например, bert-base-uncased-vocab.txt содержит около 30522 словарей).

Работа с плотным вектором размером 30 КБ для поиска информации может стать чрезмерной с точки зрения задержки и использования памяти. В таких случаях разреженное представление может оказаться полезным, так как оно повышает квадратичную производительность.

Рассмотрим два вектора вложения x, W. Вычисление (Транспонирование(W) * x) требует вычисления только поточечного произведения с индексами j, где оба W ⱼ и xⱼ не равны нулю.

В частности, если вектор имеет p ненулевых элементов, улучшение производительности составляет около 1/p².

FLOPS — это количество операций с плавающей запятой, выполняемых моделью.

Минимизация количества FLOP гарантирует, что представление будет разреженным. Этот блог пытается обобщить регуляризацию FLOP, упомянутую в [1]. Для получения более подробной информации о регуляризации читателям предлагается прочитать статью.

Пусть pⱼ будет вероятностью того, что значение индекса j не равно нулю.

Учитывая,

n — количество точек, а d — скрытые/выходные размеры.

Это значение рассчитывается эмпирически как

Матрица вложения E задается следующим образом:

Проигрыш на FLOP определяется выражением

Эта потеря обычно сочетается с потерей исходной модели, такой как (бинарная перекрестная энтропия или контрастная потеря и т. Д.)

Одна хорошая вещь с регуляризацией FLOP заключается в том, что потери FLOP минимизируются, когда каждое из измерений d не равно нулю с равной вероятностью. Это обеспечивает равномерную разреженность по всем измерениям d.

Сравнение с регуляризацией L1 для получения разреженного представления:

L1 можно рассматривать как альтернативу разреженности на основе FLOP. Для разреженного представления для поиска информации FLOP, по-видимому, имеют два преимущества по сравнению с регуляризацией L1 (Lasso):

Регуляризация FLOP обычно приводит к более высокой разреженности по сравнению с регуляризацией L1 [1].
L1 не обеспечивает равномерную разреженность по всем измерениям d . Где, поскольку FLOPs обеспечат равномерную разреженность. Это приводит к эффективным инвертированным индексам для поиска информации [2].

Использованная литература:

[1] . Минимизация FLOP для изучения эффективных разреженных представлений https://arxiv.org/pdf/2004.05665.pdf

[2]. SPLADE v2: Разреженная лексическая модель и модель расширения для поиска информации https://arxiv.org/pdf/2109.10086.pdf

Регуляризация FLOP: изучение разреженных вложений

Похожие вопросы