Возможно Dask-ify инкрементный PCA или стохастический градиентный спуск или другие алгоритмы частичного подбора scikit

На основе Инкрементного PCA для больших данных и документации по инкрементному PCA предлагается использовать карту памяти. array, но можно ли сделать то же самое с помощью dask?

Обновление Расширен вопрос, чтобы включить другие алгоритмы частичного соответствия, поскольку в репозитории git для dask упоминается метод использования любого scikit-learn, который поддерживает частичное соответствие, но я не могу найти документацию по нему в API. . Когда я попытался выполнить инкрементный pca для кадра данных 6000x250000 float64 dask, потребовалось 8 часов, чтобы добиться 9% прогресса на 16-ядерной виртуальной машине объемом 104 ГБ без настройки планировщика dask, но я не был уверен, было ли это связано с моим плохим кодом или это то, чего ожидать от набор данных такого размера. Я буду рад любым советам по размеру партии для SGD, даже просто как доказательство концепцииhttps://github.com/dask/dask/blob/master/dask/array/learn.pyhttp://matthewrocklin.com/blog/work/ 2016/07/12/dask-learn-part-1

scikit-learn dask pca

mobcdi 28.08.2016 источник

Ответы (1)

arrow_upward
4
arrow_downward

dask.array.linalg.svd Функция работает параллельно на небольшом пространстве.

Функции подгонки и прогнозирования в dask.array поддерживают любые sklearn.Estimator методом partial_fit.

Проект dask-learn обрабатывает partial_fit, поиск по сетке, конвейеры и т. д. См. этот блог из трех частей. сериал Джима Криста о проекте:

MRocklin 29.08.2016

comment

Есть ли у вас какие-либо рекомендации по размеру раздела? На данный момент это выглядит как 1 строка на раздел - mobcdi; 29.08.2016

comment

Прочтите документацию: dask.readthedocs.io/en/latest/array -creation.html#chunks - MRocklin; 29.08.2016

Возможно Dask-ify инкрементный PCA или стохастический градиентный спуск или другие алгоритмы частичного подбора scikit

Ответы (1)

Похожие вопросы