В этом блоге мы обсудим простую линейную регрессию математически, поскольку машинное обучение фундаментально основано на статистике. Поэтому, прежде чем углубляться в какой-либо алгоритм, крайне важно понять математические принципы, лежащие в его основе. Только после этого следует переходить к реализации кода.
Линейная регрессия :
Линейная регрессия — это попытка статистической модели объяснить взаимосвязь между зависимой переменной и одной или несколькими независимыми переменными с помощью прямой линии.
Цель линейной регрессии — найти наиболее подходящую линию с помощью набора точек данных, которые можно использовать для прогнозирования будущих наблюдений.
Независимая переменная [ось X] известна как переменная-предиктор [ось Y], а зависимая также известна как выходная переменная.
Уравнение простой линейной модели: Y = mx + c
Наклон представляет собой изменение y при заданном изменении x.
Понимание алгоритма линейной регрессии математически
Теперь давайте построим точки данных.
Наша цель — найти наиболее подходящую линию, используя метод наименьших квадратов.
Линия регрессии: Y = mx + c
Теперь нам нужно найти значение m?
вычисление значения m по приведенной выше формуле:
→ Y= mx + c
→ 3,6 = (0,4)(3) + c ∵, поскольку x̄ и ş являются средними значениями x и y.
→3.6=1.2+c
→c=2.4
→ Y = mx + c
→ Y = 0.4x+24
Теперь, используя приведенное выше уравнение, мы построим график фактического наведения.
Y = 0.4x+24
Теперь строим график фактических точек данных.
Остатки:
Остатки определяются как разница между координатой y фактических данных и координатой y прогнозируемых данных.
На изображении выше линия наилучшего соответствия построена с использованием рисунка 2, а точки данных — с рисунка 1. Расстояние между обеими точками данных называется остатками.
Ei = Yi — Ypred∵Ei — ошибочный термин, Yi — фактические данные точка, а Ypred — прогнозируемая точка данных.
e1²+e2²+e3²+…..+en² = Остаточная сумма квадратов (RSS)
Сумма квадратов остатков должна быть минимальной.
# Давайте проверим соответствие
R² :
R² измеряет, насколько изменчивость зависимой переменной может быть объяснена моделью. Это квадрат коэффициента корреляции (R), поэтому его называют R-квадратом.
R² — хороший показатель, позволяющий определить, насколько хорошо модель соответствует зависимой переменной.
Диапазон R² от 0 до 1.
Расчет R²:
R² ≈ 0.3
В нашем случае R² является слабым.