Обзор систем машинного обучения для модерации онлайн-контента

Обзор

По мере того как социальные платформы Интернета, такие как Facebook и Twitter, становятся все популярнее и доступнее, увеличивается и количество отправляемого на них контента. Хотя рост этих платформ приносит много преимуществ и позволяет людям оставаться на связи друг с другом и коллективно организовываться по всему миру, он также создает такие проблемы, как распространение фейковых новостей и злоупотребления в Интернете, такие как киберзапугивание. По мере того как правовая и социальная среда, окружающая эти пространства взаимодействия, становится все более зрелой, на эти компании ложится все большее бремя по контролю над своими платформами. Они становятся все более ответственными за обслуживание и качество своих платформ.

Однако с миллиардами пользователей и миллионами сообщений и фотографий, размещенных на этих платформах, эти компании не могут вручную проверить каждую из них. Вместо этого они обычно используют системы машинного обучения для автоматического анализа контента, загруженного на их веб-сайты. Материалы, помеченные как нарушающие правило, затем отправляются рецензентам, которые принимают окончательное решение о том, следует ли разрешить эту часть контента на сайте.

Какой контент модерируется?

Во-первых, важно рассмотреть некоторые примеры контента, на который обычно ориентируются системы модерации контента. С контентом обычно обращаются одним из двух следующих методов - либо посредством упреждающих предупреждений перед отправкой подозреваемого оскорбительного контента, либо путем удаления и / или наказания постфактум.

Оскорбительный контент

Первая категория включает контент, целью которого является оскорбление или оскорбление кого-либо или группы людей в Интернете. Сюда входят различные типы поведения, такие как кибер-агрессия, кибер-издевательства, разжигание ненависти и доксинг. Хотя некоторые из этих социальных явлений довольно сложно определить, компании, тем не менее, прилагают усилия для их автоматического обнаружения. После нескольких инцидентов, связанных с кибер-издевательствами, которые, к сожалению, привели к самоповреждениям и самоубийствам, такие компании, как Facebook и Instagram, столкнулись с растущим давлением, требующим добавления параметров отчетности и усиления модерации. Большинство подходов к обнаружению оскорбительного контента используют сочетание обработки естественного языка, обработки изображений и анализа социальных сетей.

Поддельный / вводящий в заблуждение контент

Следующая категория включает в себя контент, который является либо ложным, либо вводящим в заблуждение, целью которого является использование социальной сети для ускорения распространения ложной информации, обычно в форме новостных статей. Чаще всего мы слышим об этом контенте под политически мотивированным выражением «фейковые новости». Обнаружение фейковых новостей - открытая область исследований и представляет множество проблем, поскольку невозможно вручную проверить каждую статью. Современные подходы используют различные методы, такие как включение больших баз общих / здравых знаний, обработка естественного языка и включение различных факторов, основанных на репутации, посредством анализа социальных сетей и стилистических элементов контента.

Нагота / откровенный контент

Следующая категория включает изображение обнаженной натуры и материалы откровенно сексуального характера. Обычно это обнаруживается с помощью методов обработки изображений. У разных платформ разные позиции - например, Instagram не разрешает этого вообще, тогда как Reddit разрешает все (законные) случаи этого. В частности, Tumblr недавно решил изменить свою политику в отношении откровенного содержания и запретить порнографию и большинство случаев обнаженного тела.

Мошенничество / фишинг / взлом

Наконец, у нас есть контент, который направлен на мошенничество, фишинг или взлом пользователей на платформе. Этот тип контента обычно пытается заставить пользователей покинуть платформу и перейти на другой веб-сайт. На этом внешнем веб-сайте пользователя обычно обманом заставляют либо отправить личную информацию, либо отправить деньги непреднамеренной стороне. Это часто достигается либо путем имитации URL-адресов на исходном веб-сайте (часто с помощью гомоглифических атак), либо путем обещания пользователю более выгодной сделки при покупке с использованием внешнего веб-сайта. Этот контент обычно обнаруживается с помощью обработки естественного языка, сбора известных фишинговых ссылок и факторов, основанных на репутации, с помощью анализа социальных сетей и факторов учетной записи.

Как происходит модерация?

Теперь, когда у нас есть понимание общих типов модерируемого контента, мы можем перейти к обзору того, как работают большинство автоматизированных систем модерации контента. Обычно это происходит в два основных этапа.

Автоматическая пометка

Во-первых, конечно, контент создается и отправляется пользователем.

Если известно, что этот пользователь нарушает правила или контент явно противоречит правилам, основанным на некоторых базовых проверках, пользователь может быть заблокирован теневым баном, и контент может быть автоматически скрыт без ведома пользователя.

В противном случае функции рассчитываются для ввода в модели машинного обучения модерации контента. Некоторые из этих функций, возможно, уже были рассчитаны с помощью системы запланированной пакетной обработки, если они не являются функцией самого контента (например, пользовательские функции), в то время как другие могут быть вычислены на лету, если они непосредственно получены из отправленное содержимое (например, функции, включающие текст или изображение). Кроме того, после отправки, если контент вручную помечен другими пользователями, он может быть повторно обработан.

На основе этих функций модель машинного обучения выводит оценку, которую можно интерпретировать как вероятность. Если эта оценка превышает определенный порог, контент помечается для проверки людьми, поскольку предполагается, что он нарушает правила платформы. Естественно, поскольку это предприятия, которые стремятся оптимизировать свои расходы, этот порог обычно выбирается с математической строгостью, чтобы оптимизировать некоторую метрику, которая уравновешивает стоимость нарушения правил со стоимостью ручной маркировки.

Человеческий обзор

После того, как контент был помечен, он передается рецензенту, который вручную проверяет его. Как правило, они проходят небольшой тренинг по выявлению контента, нарушающего правила. Эти ручные рецензенты работают очень быстро и могут тратить всего несколько секунд на просмотр каждого фрагмента контента. Из-за типа контента, который они должны просматривать ежедневно, условия работы этих работников были названы проблемными.

После проверки содержания рецензент принимает окончательное решение о том, нарушает ли содержание какие-либо правила. Обычно каждое сообщение назначается нескольким рецензентам (~ 5), чтобы, как мы надеемся, устранить противоречивые результаты, возникающие из-за ошибок маркировки или различных интерпретаций.

После того, как введены последние ярлыки, с контентом будут приняты меры, если он нарушает какие-либо правила. Обычно это означает, что содержимое удалено. Аккаунт пользователя также может быть оштрафован или удален.

Наконец, этот фрагмент контента сохраняется вместе с его метками. В будущих итерациях моделей машинного обучения с пометкой контента этот новый фрагмент данных, скорее всего, будет использоваться в своих обучающих наборах. Благодаря этому процессу данные не теряются, и модели могут постоянно переобучаться и адаптироваться к изменяющимся шаблонам в представлениях пользователей.