Регрессия [Регресс в регрессии означает: возврат к среднему состоянию]

Произносится как ruh.greh.shun, это статистический метод, который помогает оценить силу и характер взаимосвязи между одной зависимой переменной и рядом/набором независимых переменных. Давайте возьмем пример. Представьте, что вы директор компании (перестаньте представлять автомобили в своем гараже и вместо этого давайте сосредоточимся на количестве заказов, которые ваша компания выполняет в день), и вы пытаетесь предсказать свой спрос в ближайшие дни. . Теперь может быть много факторов, которые, как вы знаете, могут повлиять на этот ваш спрос, скажем, если бы вы предоставили скидки, ваш спрос был бы выше или намного лучше, если бы вы водили красный Феррари каждый день, ваш спрос увеличился бы в четыре раза в следующие 5 дней. Наш друг регрессия поможет нам понять, какой из ваших факторов оказывает влияние, а какой нет, и не только это позволяет сказать, что мы нашли нашу независимую переменную, а затем, используя регрессию, мы можем фактически найти спрос, когда вы должны были предоставить общую среднюю скидку 10% на всю вашу продукцию.

Прежде чем двигаться дальше, давайте определим несколько вещей, чтобы не было дальнейших сомнений / путаницы.

Зависимая переменная: это переменная, которую мы пытаемся предсказать и понять. (Единственное число)

Независимые переменные: переменные, которые влияют/влияют на нашу зависимую переменную. (Множественное число)

Давайте рассмотрим график зависимости заказов от скидки, каждая синяя точка — это данные за неделю — какая скидка была предоставлена ​​и сколько заказов было размещено и обработано. Из этого мы можем прокомментировать, что чем выше скидка, тем выше количество заказов, было бы безумием, если бы мы могли найти количество заказов, которые мы бы обработали, если бы предоставили скидку 10%. Для этого давайте представим себе линию, которая в целом проходит через большинство точек данных, а затем с определенной долей уверенности мы можем прокомментировать количество заказов, которые мы могли бы сделать, если бы мы предоставили более высокую скидку. Не только это, но мы также можем получить уравнение красной линии, которое обеспечивает связь между зависимой переменной и независимыми переменными. (Просто для приведенного выше сценария это может быть y = 30 * x + 600 + e, где y — количество заказов, x — процент скидки, а e — ошибка.

В любой регрессии всегда будет член ошибки, поскольку мы не можем полностью предсказать постановку проблемы реальной жизни. Этот член ошибки скажет нам, действительно ли независимая переменная заслуживает внимания или нет. Теперь, в зависимости от количества независимых переменных, мы можем использовать регрессионный анализ, чтобы получить кумулятивное влияние всех независимых переменных, что является его самым большим преимуществом. Хороший аналитик данных выберет только необходимые независимые переменные и попытается подогнать линию регрессии как можно ближе к данным, тем самым уменьшив общую ошибку. Помните, что добавление слишком большого количества независимых переменных может испортить ваш анализ.

Типы регрессионного анализа:

Линейная регрессия (двумерная линейная регрессия) [Y= MX+C+E] :

Это самый простой анализ в регрессии, он в основном помогает найти взаимосвязь между зависимой и независимой переменной с помощью линейной модели. В этом типе модели делается шесть допущений.

а) Существует линейная зависимость между зависимой и независимой переменной, что дает нам наклон и точку пересечения.

б) Независимая переменная не случайна и носит непрерывный характер.

в) Значение ошибки (Е) равно нулю.

г) Значение ошибки (Е) является постоянным для любых наблюдаемых данных.

e) корреляция ошибок (E) между наблюдаемыми данными отсутствует.

f) Значения ошибок подчиняются закону нормального распределения.

Y — Зависимая переменная

X — Независимая переменная

M - Коэффициент (называемый весом в машинном обучении)

C — Перехват (называемый предвзятостью в машинном обучении)

Множественная линейная регрессия (многовариантная линейная регрессия) [Y= MX+NY+OZ]

Это самый простой анализ в регрессии, он в основном помогает найти взаимосвязь между зависимой и множественной независимой переменной.

Нелинейная регрессия

Вся цель нелинейной регрессии состоит в том, чтобы связать две переменные нелинейным образом так, чтобы

отклонение минимально возможное. Чем меньше отклонение, тем лучше функция соответствует точкам данных. Нелинейная регрессия обычно сложна по сравнению с линейной регрессией, потому что функция, которая соответствует точкам данных, создается с использованием нескольких итераций / грубой силы.

Давайте углубимся в регрессию, но прежде чем мы туда доберемся, давайте также узнаем о стоимости 🤑 и потерянных 🏳️ функциях.