Машинное обучение: простая линейная регрессия с Python

В этом блоге мы обсудим простую линейную регрессию математически, поскольку машинное обучение фундаментально основано на статистике. Поэтому, прежде чем углубляться в какой-либо алгоритм, крайне важно понять математические принципы, лежащие в его основе. Только после этого следует переходить к реализации кода.

Линейная регрессия :

Линейная регрессия — это попытка статистической модели объяснить взаимосвязь между зависимой переменной и одной или несколькими независимыми переменными с помощью прямой линии.

Цель линейной регрессии — найти наиболее подходящую линию с помощью набора точек данных, которые можно использовать для прогнозирования будущих наблюдений.

Независимая переменная [ось X] известна как переменная-предиктор [ось Y], а зависимая также известна как выходная переменная.

Уравнение простой линейной модели: Y = mx + c

Наклон представляет собой изменение y при заданном изменении x.

Понимание алгоритма линейной регрессии математически

Теперь давайте построим точки данных.

Наша цель — найти наиболее подходящую линию, используя метод наименьших квадратов.

Линия регрессии: Y = mx + c

Теперь нам нужно найти значение m?

вычисление значения m по приведенной выше формуле:

→ Y= mx + c

→ 3,6 = (0,4)(3) + c ∵, поскольку x̄ и ş являются средними значениями x и y.

→3.6=1.2+c

→c=2.4

→ Y = mx + c

→ Y = 0.4x+24

Теперь, используя приведенное выше уравнение, мы построим график фактического наведения.

Y = 0.4x+24

Теперь строим график фактических точек данных.

Остатки:

Остатки определяются как разница между координатой y фактических данных и координатой y прогнозируемых данных.

На изображении выше линия наилучшего соответствия построена с использованием рисунка 2, а точки данных — с рисунка 1. Расстояние между обеими точками данных называется остатками.

Ei = Yi — Ypred∵Ei — ошибочный термин, Yi — фактические данные точка, а Ypred — прогнозируемая точка данных.

e1²+e2²+e3²+…..+en² = Остаточная сумма квадратов (RSS)

Сумма квадратов остатков должна быть минимальной.

# Давайте проверим соответствие

R² :

R² измеряет, насколько изменчивость зависимой переменной может быть объяснена моделью. Это квадрат коэффициента корреляции (R), поэтому его называют R-квадратом.

R² — хороший показатель, позволяющий определить, насколько хорошо модель соответствует зависимой переменной.

Диапазон R² от 0 до 1.

Расчет R²:

R² ≈ 0.3

В нашем случае R² является слабым.