Определение выбросов может быть простой задачей. С другой стороны, решение о том, что с ними делать, всегда требует более глубокого изучения.

Мотивация

Данные могут быть зашумленными. Когда у вас небольшая (по отношению к размеру совокупности) случайная выборка совокупности, особенно шумной, создание модели, которая бы хорошо обобщала, может оказаться довольно сложной задачей, а то и невозможным.

Представьте, что вы построили простую линейную модель, которая плохо работает с вашими данными. Затем вы решили вычислить стьюдентизированные остатки и удалить все наблюдения, выходящие за рамки определенной области. В результате ваша модель намного лучше соответствует данным. Наконец, вы запускаете его в производство, и подгонка становится кошмаром.

Шумные данные - не редкость, и они могут сильно повлиять на ваши выводы. Знание того, как распознать это и как бороться с ним, важно для любого точного вывода. Отличный инструмент, который поможет нам изучить и лучше понять проблему, - это симуляции.

Моделирование выбросов и простая линейная модель

Если вы еще этого не сделали, вам следует создать свои собственные симуляции. Это отличный способ закрепить то, что вы только что узнали из учебника или курса по статистике. Вы можете запачкать руки примерами, которые вы можете создать с нуля, и, что еще лучше, модифицировать так, как вам нравится.

Для этого мне нравится использовать Rstudio. Допустим, мы консультируем дилерский центр по продаже подержанных автомобилей относительно цены на подержанные автомобили с учетом их пробега. Предположим, что две переменные имеют размер 100 и могут быть хорошо смоделированы с помощью простой линейной регрессии. Я определю истинную линию регрессии населения с помощью следующих коэффициентов:

b0 <- 21345
b1 <- -0,1349

Давайте создадим независимую переменную пробег, выбрав ее из нормального распределения со средним значением 76950,45 и стандартным отклонением 16978,58: (Эти значения выбираются на основе набора данных, доступного здесь.)

mileage <- rnorm(n = 100, mean = 76950.45, sd = 16978.58)

Далее я введу шум со случайной ошибкой. Я выберу его из нормального распределения со стандартным отклонением, равным 500, и изменю одно значение, чтобы создать подходящий выброс.

eps <- rnorm(n = 100, mean = 0, sd = 500)
eps[81] <- 15000

Стандартное отклонение члена случайной ошибки увеличилось в три раза за счет изменения этого единственного значения:

> sd(eps)
[1] 1586,312

Время для зависимой переменной:

price <- (b0 + b1*mileage + eps)

Построим данные:

Мы ясно видим два выброса на Рисунке 1. Что касается остальных значений пробега, оба они имеют необычные значения. Оба они являются точками с высоким кредитным плечом. Но если мы удалим только красную точку, мы увидим, что это единственный важный момент:

Если мы сравним статистику двух моделей, мы увидим очень разные значения. Например, после удаления ключевой точки стандартная остаточная ошибка снижается с 1518 до 514, что очень близко к фактическим значениям для стандартного отклонения члена ошибки, равным 1586 и 500 соответственно.

Вот два графика остатков:

Одна вещь, которую мы не видим в этом примере, и это следует упомянуть, заключается в том, что иногда выброс, не влияющий на линию наименьших квадратов, может иметь большой остаток. Это все еще может быть проблемой, поскольку, как мы видели выше, большая невязка приводит к большой стандартной остаточной ошибке, которую мы используем для определения доверительных интервалов и p-значений.

Решение проблемы с примером

Теперь нам нужно решить, убирать ли вообще влиятельную точку или нет. Всегда будьте предельно осторожны с этой проблемой. Для его удаления нужна очень веская причина. Если мы посмотрим на R-квадрат двух моделей, мы увидим большую разницу. Модель с влиятельной точкой имеет R-квадрат около 60% по сравнению с 95%, когда влиятельная точка удаляется. Эта разница может показаться достаточно веской причиной для удаления, но сама по себе это не так.

Чтобы лучше понять это, нам нужно понять простой факт, который часто упускается из виду. Наша цель - предсказывать не прошлое, а будущее. Небольшое окно вышеупомянутых данных состоит из 100 отдельных наблюдений. Каждая статистика, вычисленная в этом окне, является точечной оценкой истинной статистики населения. Простая линейная регрессия действительно хороша для фиксации взаимосвязи между двумя переменными внутри этого окна, но не обязательно за его пределами. Вы должны быть очень осторожны с использованием вашей модели для экстраполяции. Когда мы выбираем одну из этих двух моделей, мы, по сути, делаем предположение о населении. Модель без влиятельной точки RSE в три раза меньше. Это означает, что доверительный интервал 95% будет в три раза уже. По сути, наши прогнозы были бы намного увереннее. В данных нет ничего, что говорило бы нам, что мы можем сделать такое уверенное предположение о населении. Чтобы получить представление о том, как выглядит население, нам нужно провести небольшое исследование. В отличие от моделирования, мы никогда не узнаем, как выглядит истинная статистика населения. Итак, нам нужна идея, нам нужно выдвинуть гипотезу о населении.

Представим, что наша очевидная остановка - это наш клиент, владелец автомобильного аукциона. Владелец сказал нам, что это была необычная старая машина, которая привлекла внимание небольшой группы покупателей, которые очень хотели ее. Они сделали ставки между собой и подняли цену до необычно высокой. Кроме того, владелец уверяет нас, что это был единственный случай за 20-летнюю историю компании, и такого больше не повторится. Они имеют дело с обычными, повседневными автомобилями.

Вооружившись этими знаниями, мы возвращаемся к нашей модели и уверенно удаляем выбросы. С точки зрения статистики модели это будет означать, что мы уверены, что стандартная остаточная ошибка модели составляет 514, что дополнительно означает, что мы можем предположить, что истинное стандартное отклонение члена ошибки близко к этому числу (поскольку данные моделируются, мы знаем, что оно равно 500 ). Эта оценка популяции имеет решающее значение, если мы хотим получить правильные другие точечные оценки.

Если бы владелец не был так уверен, мы не должны были удалять выброс. Вместо этого мы могли бы изучить рынок подержанных автомобилей и попытаться найти внешнюю оценку стандартного отклонения истинной ошибки. Если наша модель или любая другая в этом отношении игнорирует экстремальные значения, которые, как мы с уверенностью не можем предположить, не встретятся в производственной среде, она будет плохо работать при запуске в производство. Плохо удаленные выбросы приводят к чрезмерно достоверным оценкам.

Вывод

Заманчиво игнорировать или удалять выбросы. Не делайте этого без уважительной причины. Всегда проводите внешние исследования, чтобы найти гипотетические истинные статистические данные о населении. Это, наверное, легче сказать, чем сделать.

Реальный мир не так легко понять, как смоделированные данные в этом примере. Тем не менее я утверждаю, что этот пример следует использовать в качестве мотивации для дальнейшего изучения. Это должно побудить вас подойти к реальной проблеме не только с помощью математической формулы, которая определяет, какие выбросы в ваших данных следует удалить, но и для экспериментов и построения гипотез на основе истинной статистики населения. Только хорошее представление о том, как выглядит население, может ответить на вопрос, какие выбросы следует удалить.

использованная литература

Дэвид М. Диз, Кристофер Д. Барр, Майн Четинкая-Рундель (2015). Третья редакция статистики OpenIntro. openintro.org

Гарет Джеймс, Даниэла Виттен, Тревор Хасти, Роберт Тибширани (2017). Введение в статистическое обучение с приложениями в R.

Ариэль Малдун (2018). Моделируйте! Моделируйте! - Часть 1. Линейная модель .

Эндрю Гельман, Джон Карлин (2014). Помимо расчетов мощности: оценка ошибок типа S (знак) и типа M (величина) (2014 г.). Перспективы психологической науки Vol. 9 (6) 641–651.

Брэндон Фольц (2019). Статистика 101: линейная регрессия, выбросы и важные наблюдения.