1. Обобщение узбекского текста на основе TF-IDF(arXiv)

Автор: Хабибулла Мадатов, Шукурла Бекчанов, Ерней Видич.

Аннотация: Объем информации увеличивается невероятными темпами с бурным развитием Интернета и электронных информационных услуг. Из-за нехватки времени у нас нет возможности прочитать всю эту информацию. Даже задача анализа текстовых данных, относящихся к одному полю, требует большой работы. Задача реферирования текста помогает решить эти проблемы. В данной статье представлен эксперимент по задаче реферирования для узбекского языка, методология была основана на абстрагировании текста на основе алгоритма TF-IDF. С помощью этой функции плотности извлекаются семантически важные части текста. Мы суммируем данный текст, применяя метод n-грамм к важным частям всего текста. Для оценки эффективности предложенного метода авторы использовали специально созданный вручную корпус под названием «Школьный корпус». Результаты показывают, что предложенный подход эффективен при извлечении резюме из текста на узбекском языке и потенциально может использоваться в различных приложениях, таких как поиск информации и обработка естественного языка. В целом, это исследование способствует увеличению объема работ по реферированию текста на языках с ограниченными ресурсами.

2. Резюме как подписи: создание подписей к рисункам для научных документов с помощью автоматического суммирования текста (arXiv)

Автор: Чье-Ян Хуан, Тин-Яо Сюй, Райан Росси, Ани Ненкова, Сунгчул Ким, Громит Юк-Инь Чан, Юни Ко, Клайд Ли Джайлс, Тин-Хао 'Кеннет' Хуан

Аннотация: Хорошие подписи к рисункам помогают читателям статьи понять сложные научные цифры. К сожалению, даже опубликованные статьи часто имеют плохо написанные подписи. Автоматическое создание подписей может помочь авторам статей, предоставляя хорошие начальные подписи, которые можно улучшить для повышения качества. В предыдущих работах создание подписей к рисункам часто рассматривалось как задача преобразования видения в язык. В этой статье мы показываем, что ее можно более эффективно решить как задачу реферирования текста в научных документах. Мы настроили PEGASUS, предварительно обученную абстрактную модель реферирования, чтобы конкретно суммировать абзацы со ссылками на рисунки (например, На рисунке 3 показано…) в подписи к рисункам. Эксперименты с крупномасштабными фигурами arXiv показывают, что наш метод превосходит методы предшествующего видения как в автоматических, так и в человеческих оценках. Далее мы провели углубленное расследование, сосредоточив внимание на двух ключевых проблемах: (i) повсеместное наличие некачественных авторских подписей и (ii) отсутствие четких стандартов для хороших подписей. Наш код и данные доступны по адресу: https://github.com/Crowd-AI-Lab/Generating-Figure-Captions-as-a-Text-Summarization-Task.