Текстовая классификация - использование стеммера ухудшает результаты?

Есть эта статья об анализе настроений в арабском языке.

В начале страницы 5 написано, что:

«Эксперименты также показывают, что определение корней слов перед выделением признаков и классификацией почти всегда ухудшает результаты».

Позже на той же странице они заявляют, что:

"...и для образования корней слов используется арабский светлый стеммер"

Эм, я думал, что стеммер/лемматизатор всегда использовался перед классификацией текста, почему он говорит, что это ухудшает результаты?

Спасибо :)


person Cheshie    schedule 22.01.2014    source источник


Ответы (1)


Я не знаю арабского языка, возможно он специфичен во многих аспектах, мой ответ касается английского.

Хм, я думал, что стеммер/лемматизатор всегда использовался перед классификацией текста, почему он говорит, что это ухудшает результаты?

Нет, это полностью зависит от задачи. Если вы хотите извлечь какую-то общую концепцию из текста, то создание стемминга/лематизация — хороший шаг. Но при анализе коротких фрагментов, где ценно каждое слово, выделение корней просто уничтожает его значение. В частности, при анализе тональности стемминг может разрушить тональность слова.

person lejlot    schedule 22.01.2014
comment
Привет @lejlot :) Первое: спасибо. Вопрос: При анализе коротких фрагментов стемминг просто уничтожает смысл?! O_O Не могли бы вы предоставить объяснение/пример/источник? И я привел вторую цитату, чтобы показать, что в конце концов они использовали стеммер... хотя им не следовало этого делать? (Кстати: я тоже не знаю арабского, но полагаю, что главное отличие в том, что это очень флективный язык). - person Cheshie; 23.01.2014
comment
Стемминг — это всего лишь набор правил сокращения слова, которое при этом может потерять свое значение. Что тут удивительного? Любая манипуляция, уменьшающая количество данных, уменьшает количество информации. Рассмотрим стеммер Ланкастера и слова: hard , harder , hardening , hards; которые имеют совершенно разные значения в английском языке, все они имеют одну и ту же основу hard, из-за чего этот процесс теряет много информации. - person lejlot; 23.01.2014
comment
по поводу цитирования - статью не читал, так как она мне далеко не интересна; но во-первых, они заявляют, что это почти всегда снижает результаты, а не всегда, возможно, в их случае этого не произошло, поэтому они могут остановить, и они заявляют, что используют легкий стеммер, который может быть легким в смысле утраченного смысла. Например, лемматизатор Wordnet намного легче стеммера Lancaster. - person lejlot; 23.01.2014
comment
...И все же он все еще используется? Я предполагаю, что это не имеет большого значения, но я довольно много читал и не могу припомнить, чтобы я видел какую-либо классификацию текста, выполненную без определения основы. У тебя...? Еще раз спасибо @lejlot - person Cheshie; 23.01.2014
comment
Да, в моем комментарии говорится, что это может быть дело там, опять же - свет может быть решающим моментом здесь. И да, я видел десятки таких (классификация без основы), особенно современные подходы, основанные на более продвинутых моделях, чем простое представление набора слов, но SO не место для таких дискуссий. - person lejlot; 23.01.2014
comment
Хорошо... если у вас есть ссылка на такую ​​статью или что-то в этом роде (предпочтительно модели мешка слов, без стемминга), я был бы очень признателен. Спасибо @lejlot :) - person Cheshie; 23.01.2014