Есть эта статья об анализе настроений в арабском языке.
В начале страницы 5 написано, что:
«Эксперименты также показывают, что определение корней слов перед выделением признаков и классификацией почти всегда ухудшает результаты».
Позже на той же странице они заявляют, что:
"...и для образования корней слов используется арабский светлый стеммер"
Эм, я думал, что стеммер/лемматизатор всегда использовался перед классификацией текста, почему он говорит, что это ухудшает результаты?
Спасибо :)