1. SQuAT: тренировка с учетом резкости и квантования для BERT(arXiv)

Автор:Чжэн Ван, Цзюньчэн Би Ли, Шухуэй Цюй, Флориан Метце, Эмма Штрубелл

Аннотация. Квантование — это эффективный метод уменьшения объема памяти, задержки логического вывода и энергопотребления моделей глубокого обучения. Однако существующие методы квантования страдают от снижения точности по сравнению с моделями полной точности (FP) из-за ошибок, вносимых грубой оценкой градиента через недифференцируемые слои квантования. Существование резких локальных минимумов в ландшафтах потерь чрезмерно параметризованных моделей (например, трансформаторов) имеет тенденцию усугублять такое снижение производительности в настройках с низким битом (2, 4 бита). В этой работе мы предлагаем обучение с учетом резкости и квантования (SQuAT), которое будет способствовать сходимости модели к более плоским минимумам при выполнении обучения с учетом квантования. Предлагаемый нами метод чередует обучение между целью резкости и целью размера шага, что потенциально может позволить модели изучить наиболее подходящую величину обновления параметра для достижения почти плоских минимумов сходимости. Обширные эксперименты показывают, что наш метод может постоянно превосходить современные квантованные модели BERT при 2-, 3- и 4-битных настройках на тестах GLUE на 1%, а иногда может даже превосходить модели полной точности (32-битные). Наши эксперименты по эмпирическому измерению резкости также предполагают, что наш метод приведет к более плоским минимумам по сравнению с другими методами квантования.

2.GMP*: хорошо настроенное сокращение глобальной величины может превзойти большинство методов сокращения BERT(arXiv)

Автор:Эльдар Куртич, Дэн Алистарх

Аннотация. Мы пересмотрели производительность классического базового показателя постепенного уменьшения амплитуды (GMP) для больших языковых моделей, сосредоточив внимание на классическом эталонном тесте BERT для различных популярных задач. Несмотря на имеющиеся в литературе свидетельства того, что GMP работает плохо, мы показываем, что простой и общий вариант, который мы называем GMP*, может соответствовать, а иногда и превосходить более сложные современные методы. Наши результаты обеспечивают простую, но надежную основу для будущей работы, подчеркивают важность настройки параметров для базовых линий и даже улучшают производительность современного метода сокращения второго порядка в этой настройке.

3. Multi-CLS BERT: эффективная альтернатива традиционному ансамблю(arXiv)

Автор:Хау-Шиуан Чанг, Руэй-Яо Сун, Кэтрин Риччи, Эндрю МакКаллум

Вывод. Объединение моделей BERT часто значительно повышает точность, но за счет значительно большего объема вычислений и объема памяти. В этой работе мы предлагаем Multi-CLS BERT, новый метод ансамбля для задач прогнозирования на основе CLS, который почти так же эффективен, как единая модель BERT. Multi-CLS BERT использует несколько токенов CLS с параметризацией и целью, которые поощряют их разнообразие. Таким образом, вместо точной настройки каждой модели BERT в ансамбле (и запуска их всех во время тестирования), нам нужно только точно настроить нашу единую модель BERT Multi-CLS (и запустить одну модель во время тестирования, собрав только несколько окончательных вложения CLS). Чтобы проверить его эффективность, мы создали Multi-CLS BERT на основе современного метода предварительной подготовки для BERT (Aroca-Ouellette and Rudzicz, 2020). В экспериментах с GLUE и SuperGLUE мы показываем, что наш Multi-CLS BERT надежно улучшает как общую точность, так и оценку достоверности. Когда в GLUE доступно только 100 обучающих выборок, модель Multi-CLS BERT_Base может даже превзойти соответствующую модель BERT_Large. Мы анализируем поведение нашего Multi-CLS BERT, показывая, что он имеет многие из тех же характеристик и поведения, что и типичный 5-процессорный ансамбль BERT, но требует почти в 4 раза меньше вычислений и памяти.