Возможно Dask-ify инкрементный PCA или стохастический градиентный спуск или другие алгоритмы частичного подбора scikit

На основе Инкрементного PCA для больших данных и документации по инкрементному PCA предлагается использовать карту памяти. array, но можно ли сделать то же самое с помощью dask?

Обновление Расширен вопрос, чтобы включить другие алгоритмы частичного соответствия, поскольку в репозитории git для dask упоминается метод использования любого scikit-learn, который поддерживает частичное соответствие, но я не могу найти документацию по нему в API. . Когда я попытался выполнить инкрементный pca для кадра данных 6000x250000 float64 dask, потребовалось 8 часов, чтобы добиться 9% прогресса на 16-ядерной виртуальной машине объемом 104 ГБ без настройки планировщика dask, но я не был уверен, было ли это связано с моим плохим кодом или это то, чего ожидать от набор данных такого размера. Я буду рад любым советам по размеру партии для SGD, даже просто как доказательство концепцииhttps://github.com/dask/dask/blob/master/dask/array/learn.pyhttp://matthewrocklin.com/blog/work/ 2016/07/12/dask-learn-part-1


person mobcdi    schedule 28.08.2016    source источник


Ответы (1)


dask.array.linalg.svd Функция работает параллельно на небольшом пространстве.

Функции подгонки и прогнозирования в dask.array поддерживают любые sklearn.Estimator методом partial_fit.

Проект dask-learn обрабатывает partial_fit, поиск по сетке, конвейеры и т. д. См. этот блог из трех частей. сериал Джима Криста о проекте:

  1. http://jcrist.github.io/dask-sklearn-part-1.html
  2. http://jcrist.github.io/dask-sklearn-part-2.html
  3. http://jcrist.github.io/dask-sklearn-part-3.html
person MRocklin    schedule 29.08.2016
comment
Есть ли у вас какие-либо рекомендации по размеру раздела? На данный момент это выглядит как 1 строка на раздел - person mobcdi; 29.08.2016
comment
Прочтите документацию: dask.readthedocs.io/en/latest/array -creation.html#chunks - person MRocklin; 29.08.2016