В настоящее время я работаю со значительно несбалансированными данными, используя пакет statsmodel GLM (или отдельную функцию логита, если это необходимо). До сих пор я не нашел способа реализовать взвешивание экземпляров в этих методах, однако я слышал, что текущая версия 0.7 для разработчиков может иметь эту функцию.
1) Есть ли способ реализовать взвешивание выборки в текущей стабильной версии 2) Если нет, реализована ли эта функция в текущей версии 0.7-dev?
Хотя я знаю, что могу вручную увеличить или уменьшить выборку данных, мне нравится возможность взвешивания классов, поскольку недостаточная выборка создает ситуацию, когда вы намеренно теряете обучающие данные, а избыточная выборка может не быть действительно репрезентативной для населения.
Даже если это не позволяет внутренне сбалансировать классы, функцию балансировки классов SK-learn можно использовать в сочетании с взвешиванием экземпляров для достижения той же функциональности (http://jaquesgrobler.github.io/online-sklearn-build/modules/generated/sklearn.preprocessing.balance_weights.html< /а>)
Спасибо