Интуиция линейной регрессии:

Представьте, что у вас есть набор данных, содержащий размеры домов (в квадратных футах) и соответствующие им цены. Вы хотите создать модель, которая может прогнозировать цену дома на основе его размера. Линейная регрессия помогает вам найти «линию наилучшего соответствия», которая представляет соотношение между размером дома и его ценой. Эту линию можно использовать для прогнозирования размеров новых домов.

Интуитивно понятно, что линия наилучшего соответствия — это линия, которая минимизирует общее расстояние между фактическими ценами на жилье и прогнозируемыми ценами на жилье (ошибка). Путем корректировки коэффициентов (наклон линии и точка пересечения) мы можем найти линию, которая лучше всего представляет взаимосвязь между входным параметром (размером дома) и целевой переменной (ценой дома).

Интуиция логистической регрессии:

Теперь представьте, что у вас есть набор данных, содержащий информацию об опухолях, например об их размерах и о том, являются ли они доброкачественными (не раковыми) или злокачественными (раковыми). Вы хотите создать модель, которая может предсказать, является ли опухоль доброкачественной или злокачественной, исходя из ее размера. Поскольку это проблема бинарной классификации, логистическая регрессия является подходящим выбором.

Вместо прямой линии, как в линейной регрессии, логистическая регрессия соответствует «S-образной» кривой (сигмовидная функция), которая представляет вероятность того, что опухоль является злокачественной. Результатом модели является значение от 0 до 1, которое можно интерпретировать как вероятность того, что опухоль является злокачественной (класс 1).

Интуитивно сигмоидальная функция помогает сопоставить любое входное значение со значением вероятности от 0 до 1. Подстраивая коэффициенты, мы можем найти кривую, которая лучше всего представляет взаимосвязь между входным признаком (размером опухоли) и целевой переменной (доброкачественная/злокачественная опухоль). ).

В обоих случаях модели изучают коэффициенты путем минимизации целевой функции:

  • Для линейной регрессии целевой функцией является среднеквадратическая ошибка (MSE), которая представляет собой среднее квадратов различий между прогнозируемыми и фактическими целевыми значениями.
  • Для логистической регрессии целевой функцией является логарифмическая потеря (или кросс-энтропийная потеря), которая измеряет разницу между прогнозируемыми вероятностями и фактическими бинарными целевыми значениями.

Минимизируя эти целевые функции, модели изучают лучшие коэффициенты, которые приводят к наиболее точным прогнозам.

Таким образом, линейная регрессия и логистическая регрессия — это два фундаментальных алгоритма машинного обучения, которые используются для разных целей. Линейная регрессия используется для прогнозирования непрерывных целевых переменных, а логистическая регрессия используется для задач бинарной классификации. Оба алгоритма изучают отношения между входными функциями и целевыми переменными, корректируя коэффициенты для минимизации целевой функции.

На следующем уроке мы рассмотрим еще один алгоритм машинного обучения, называемый деревьями решений.