На днях анализировал цены на помидоры по годам. Когда я анализировал цены на помидоры в разные годы, я заметил, что средний ценовой диапазон оставался неизменным, но минимальные и максимальные цены значительно различались. Выбросы были основным фактором, способствующим этим колебаниям. Выявляя и смягчая их влияние с помощью статистического анализа, мы можем получить более четкое представление об истинных тенденциях цен на помидоры с течением времени.

Что такое выбросы?

Представьте, что вы на вечеринке с компанией друзей. Все весело проводят время и танцуют в такт музыке, как вдруг появляется кто-то в ярко-розовой пачке и ковбойской шляпе.

Этот человек является исключением из группы — он выделяется, потому что он так отличается от всех остальных. Точно так же в анализе данных выброс — это точка данных, которая выделяется, потому что она сильно отличается от остальных данных. Так же, как и человек в балетной пачке, отклонения могут быть забавными и интересными, но они также могут вызвать проблемы, если с ними не обращаться должным образом!

Как обнаружить выбросы с помощью графиков:

Наиболее удобно для обнаружения выбросов использовать следующий график:

  1. Коробчатая диаграмма. Коробчатая диаграмма обеспечивает визуальное представление распределения данных и может помочь определить выбросы. На блочной диаграмме выбросы отображаются как отдельные точки данных за пределами усов.

2. График рассеяния. Диаграмма рассеяния обеспечивает визуальное представление взаимосвязи между двумя переменными в наборе данных. Выбросы на точечной диаграмме — это точки данных, расположенные далеко от общей картины других точек. Их можно идентифицировать визуально как точки, расположенные далеко от основного скопления точек или не соответствующие общему тренду данных.

Что происходит, если выбросы не удаляются?

Если выбросы не удаляются из набора данных, это может существенно повлиять на результаты анализа данных. Выбросы могут исказить общее распределение данных, что может привести к неправильным выводам и решениям.

Например, в медицинских исследованиях, если выбросы не будут удалены из набора данных клинических испытаний, это может повлиять на общую эффективность лечения, что приведет к неправильным выводам и рекомендациям по уходу за пациентами.

Таким образом, неустраненные выбросы могут исказить результаты анализа данных и привести к неверным выводам, что может иметь серьезные последствия в различных областях, таких как бизнес, здравоохранение и исследования.

Как удалить выбросы

Выбросы можно удалить с помощью коробчатых диаграмм и диаграмм рассеяния следующими способами:

  1. Коробчатая диаграмма. Одним из распространенных методов удаления выбросов с помощью блочной диаграммы является установка порогового значения на основе метода межквартильного диапазона (IQR). Любые точки данных, выходящие за пределы усов прямоугольной диаграммы на расстояние, превышающее IQR более чем в 1,5 раза, могут считаться выбросами и удаляться из набора данных.
  2. Диаграмма рассеяния. Выбросы можно удалить из диаграммы рассеяния, визуально определяя точки данных, которые расположены далеко от основного набора точек или не следуют общей тенденции данных. Эти точки данных можно считать выбросами и удалить из набора данных.

РЖУ НЕ МОГУ

Почему аутсайдер чувствовал себя таким одиноким?

Потому что это было далеко от подлой толпы!