Я надеюсь использовать этот блог как омут памяти. Это будет мое место, чтобы быстро пересмотреть важные моменты для алгоритмов машинного обучения и статистических методов, которые я изучил.

Часть 1 будет охватывать k ближайших соседей, алгоритм персептрона и оценку максимального правдоподобия.

Давайте начнем!!

K-ближайшие соседи:

Предположим, у нас есть бинарная проблема, и нам нужно классифицировать контрольную точку (выделена черным цветом) либо как положительную (показана красным), либо как отрицательную (показана синим цветом).

Интуитивно можно пометить контрольную точку как положительную, прежде всего потому, что контрольная точка ближе к положительным точкам, чем к отрицательным.

Это понятие классификации контрольных точек на основе их ближайших соседей - это то, как работает k-ближайших соседей !!

Ниже приведены несколько ключевых моментов о k-ближайших соседей.

  1. Предположение: похожие точки данных имеют похожие метки.

2. k-ближайших соседей зависит от выбора метрики расстояния. Обычно используемые метрики расстояния: евклидово, манхэттенское и максимальное различие.

3.Падение k-ближайших соседей: страдает от проблемы Проклятие размерности.

4. В более высоких измерениях точки данных находятся далеко друг от друга, что нарушает предположение о k-ближайших соседях о том, что соседние точки данных имеют одинаковые метки, поскольку в более высоком измерении нет близких точек.

5. По мере увеличения n (количество точек данных) k-ближайшие соседи становятся чрезвычайно точными, но это происходит за счет увеличения вычислительного времени алгоритма.

6. Сложность во время тестирования имеет порядок O(nd), что в основном означает, что алгоритм масштабируется линейно с размером данных, поэтому, если размер данных удваивается, k-ближайшим соседям потребуется вдвое больше времени.

Персептрон:

Perceptron — это алгоритм машинного обучения для контролируемого обучения бинарных классификаторов. На самом деле это старейшая нейронная сеть, изобретенная в 1958 году в Корнельском университете.

Ключевые моменты для Персептрона:

  1. Предположения: данные линейно разделимы и работают только для задач классификации, например, для бинарной классификации, где yᵢ∈{−1,+1}
  2. Предполагается, что существуетгиперплоскость, так что один целевой класс лежит на одной стороне, а другой целевой класс — на другой стороне гиперплоскости.

[Примечание: перцептрон не обязательно находит лучшую гиперплоскость, может быть бесконечное количество возможных решений гиперплоскости]

3. Гиперплоскость определяется вектором w и смещением b таким образом, что wᵀ.x +b=0.

4. Данные входные данные xᵢ считаются правильными, когда yᵢ.(wᵀ.xᵢ +b)›0, и ошибочными, когда yᵢ.(wᵀ.xᵢ +b)0

5. В отличие от k-ближайших соседей, персептрон использует преимущество проклятия размерности.

6. В более высоких измерениях точки данных находятся далеко друг от друга, поэтому предположения о персептроне верны, поскольку вероятность существования линейно отделимой гиперплоскости между точками данных намного выше.

Оценка максимального правдоподобия:

В общем, для любой задачи машинного обучения нам дается набор данных D, взятый из некоторого распределения P(X,Y), которое всегда остается неуловимым.

Итак, мы пытаемся оценить распределение вероятностей населения P(X,Y) по обучающим данным. Есть два способа сделать это

  • Оценка максимального правдоподобия (MLE)
  • Оценка максимальной апостериорной вероятности (MAP)

Ключевые моменты для оценки максимального правдоподобия:

  1. Во-первых, в MLE мы делаем предположение о типе распределения обучающих данных.
  2. Во-вторых, мы находим значение θ (параметр распределения), которое максимизирует вероятность данных P (D; θ).

Например:

Предположим, у нас есть выборка, представляющая оценки учащихся в классе с распределением точек данных, как показано ниже. Основываясь на приведенном ниже графике, мы предполагаем, что выборочные данные нормально распределены.

Для любого нормального распределения у нас есть два параметра для оценки

  • Значит
  • Среднеквадратичное отклонение

Теперь из графика легко сделать вывод, что среднее значение в этой выборке где-то близко к 60.

Но будет ли это иметь место и в популяции? Является ли эта выборка наилучшим представлением населения.

Вот тут-то и появляется MLE, который помогает найти параметры, которые лучше всего описывают совокупность выборки. Таким образом, когда мы возвращаем θ (среднее стандартное отклонение) обратно в распределение населения, вероятность наблюдения выборочных данных становится максимальной.

3. Если размер выборки велик и предположения модели верны, то MLE находит истинные параметры.

4. MLE может пойти ужасно неправильно, если предположение о распределении неверно.

5. MLE может подгонять данные, если размер выборки мал.

Это все, что у меня было со своей стороны. Я надеюсь, что это поможет вам. Не забудьте оставить свой отзыв в комментариях.

Спасибо, что нашли время, чтобы прочитать это!!