Известно, что бэггинг (метод ансамбля) хорошо работает на нестабильных алгоритмах, таких как деревья решений, искусственные нейронные сети, а не на стабильных алгоритмах, таких как Наивный Байес. Хорошо известный ансамблевый алгоритм «Случайный лес» процветает за счет способности метода мешков, который использует «нестабильность» деревьев решений, чтобы помочь построить лучший классификатор.
Несмотря на то, что случайный лес пытается справиться с проблемами, вызванными сильно коррелированными деревьями, решает ли он проблему полностью? Можно ли сделать деревья решений более нестабильными, чем случайный лес, чтобы обучаемый был еще более точным?

Давайте поговорим о случайном лесу, впоследствии я введу понятие «Рандомизированный лес»: за неимением лучшего названия :)

1. Отказ от обрезки. Больше никаких преждевременных остановок. Если деревья достаточно глубоки, они имеют очень низкий уклон.
Так как
Среднеквадратическая ошибка = Дисперсия + (Смещение)2.
Это объясняет, почему отказ от обрезки работает для случайного леса.

2. Наиболее важными параметрами, которые необходимо настроить при построении модели случайного леса, являются mtry, т. е. количество переменных на уровне, и ntree, т. е. количество ветвей в ансамбле. оптимальная «mtry» может быть оценена с помощью «tuneRF». tuneRF принимает значение по умолчанию как квадратный корень из общего количества переменных (скажем, «n») для задачи классификации, а n/3 — для задач прогнозирования. Затем вычисляется ошибка отсутствия упаковки. Кроме того, это касается левой и правой оценки, предполагая, что «mtry» равна значению по умолчанию/коэффициенту шага и (значение по умолчанию)* (коэффициенту шага) соответственно; и вычисляет нестандартную ошибку в обоих сценариях и выбирает оптимальную mtry . Фактор шага задается вручную, поэтому mtry определенно сильно зависит от выбранного коэффициента шага, неправильное предположение о котором может привести к вводящим в заблуждение результатам. Рекомендуется поддерживать его на низком уровне, чтобы искать больше значений «mtry».
Если фактор шага в любом случае задается вручную, что определенно ограничивает подпространство поиска; можно ли это назвать эффективной оптимизацией?

По словам Адель Катлер, tuneRF добавляет систематическую ошибку и может привести к переоснащению. !

3. Важность переменной и критерии разделения:
получение информации, мера энтропии, примесь Джинни считаются метрикой для выбора наилучшего атрибута для разделения. Обычное рекурсивное разбиение будет рассматривать все переменные вместе и искать в заданном пространстве лучший атрибут для разделения. Случайный лес делает это случайным образом, рассматривая переменные случайным образом, используя «mtry» в качестве количества используемых переменных.
Можно ли также рандомизировать выбор mtry? Можно ли сделать критерии разделения более случайными и нестабильными, выбрав одну из первых k переменных на основе прироста информации вместо выбора только наилучших?
Помните, что добавление нестабильности хорошо работало для мешков (например, случайных лес), добавление большей нестабильности увеличит разнообразие, которое мы ищем в ансамбле.

Это ложное предположение или представление о том, что переменные, которые оказываются наиболее значимыми, оцениваются с помощью процесса важности переменных; те, которые чаще всего используются для разделения. Это по существу неверно во всех случаях.

Можно ли переменным с высокой важностью придать больший вес при принятии решения о том, по какому атрибуту разделить, наряду с существующим критерием?

4. Рекурсивное сокращение корреляции.
Сильно коррелированные переменные могут вызывать мультиколлинеарность и отклонение от ортогонального поведения; что вызывает проблемы с классификацией. В значительной степени мультиколлинеарность избегается даже при работе с коррелированными переменными в случае случайного леса.
Но что, если окажется, что деревья сильно коррелированы?
Может ли существовать процесс сокращения путем обратного исключения, чтобы обрабатывать коррелированные атрибуты и отбрасывать коррелированные деревья, а не использовать их при окончательном голосовании?

5. Заваренные/составные признаки:
Предполагается, что учащиеся извлекают взаимодействие между атрибутами и предиктором. Даже очень продвинутые учащиеся могут упустить оценку взаимодействия различных атрибутов вместе, и последующее взаимодействие этих составных признаков с предиктором станет решающим фактором при выборе атрибута в качестве лучшего классификатора и разделения. Сваренные функции могут помочь в предоставлении информации в дереве, которое в противном случае может быть упущено при выращивании деревьев.
Составные функции в сочетании с органическими во время поиска расщеплений в случайном пространстве могут добавить ансамблю больше случайности и разнообразия. построено с использованием голосов изолированных учащихся.

Это только "векторы мысли", "геометрия" скоро будет опубликована :)

Посетите: http://www.leanml.com