Помимо популярного поиска информации на основе «плотного векторного представления», еще одним популярным способом поиска информации является встраивание на основе нейронной сети и поиск на основе «словарного представления».
При поиске на основе лексикона входной запрос и документы представляются с использованием разреженного вектора размером с число лексиконов [2] . Для большинства токенизаторов количество словарей исчисляется десятками тысяч. (Например, bert-base-uncased-vocab.txt содержит около 30522 словарей).
Работа с плотным вектором размером 30 КБ для поиска информации может стать чрезмерной с точки зрения задержки и использования памяти. В таких случаях разреженное представление может оказаться полезным, так как оно повышает квадратичную производительность.
Рассмотрим два вектора вложения x, W. Вычисление (Транспонирование(W) * x) требует вычисления только поточечного произведения с индексами j, где оба W ⱼ и xⱼ не равны нулю.
В частности, если вектор имеет p ненулевых элементов, улучшение производительности составляет около 1/p².
FLOPS — это количество операций с плавающей запятой, выполняемых моделью.
Минимизация количества FLOP гарантирует, что представление будет разреженным. Этот блог пытается обобщить регуляризацию FLOP, упомянутую в [1]. Для получения более подробной информации о регуляризации читателям предлагается прочитать статью.
Пусть pⱼ будет вероятностью того, что значение индекса j не равно нулю.
Учитывая,
n — количество точек, а d — скрытые/выходные размеры.
Это значение рассчитывается эмпирически как
Матрица вложения E задается следующим образом:
Проигрыш на FLOP определяется выражением
Эта потеря обычно сочетается с потерей исходной модели, такой как (бинарная перекрестная энтропия или контрастная потеря и т. Д.)
Одна хорошая вещь с регуляризацией FLOP заключается в том, что потери FLOP минимизируются, когда каждое из измерений d не равно нулю с равной вероятностью. Это обеспечивает равномерную разреженность по всем измерениям d.
Сравнение с регуляризацией L1 для получения разреженного представления:
L1 можно рассматривать как альтернативу разреженности на основе FLOP. Для разреженного представления для поиска информации FLOP, по-видимому, имеют два преимущества по сравнению с регуляризацией L1 (Lasso):
- Регуляризация FLOP обычно приводит к более высокой разреженности по сравнению с регуляризацией L1 [1].
- L1 не обеспечивает равномерную разреженность по всем измерениям d . Где, поскольку FLOPs обеспечат равномерную разреженность. Это приводит к эффективным инвертированным индексам для поиска информации [2].
Использованная литература:
[1] . Минимизация FLOP для изучения эффективных разреженных представлений https://arxiv.org/pdf/2004.05665.pdf
[2]. SPLADE v2: Разреженная лексическая модель и модель расширения для поиска информации https://arxiv.org/pdf/2109.10086.pdf