На основе Инкрементного PCA для больших данных и документации по инкрементному PCA предлагается использовать карту памяти. array, но можно ли сделать то же самое с помощью dask?
Обновление Расширен вопрос, чтобы включить другие алгоритмы частичного соответствия, поскольку в репозитории git для dask упоминается метод использования любого scikit-learn, который поддерживает частичное соответствие, но я не могу найти документацию по нему в API. . Когда я попытался выполнить инкрементный pca для кадра данных 6000x250000 float64
dask, потребовалось 8 часов, чтобы добиться 9% прогресса на 16-ядерной виртуальной машине объемом 104 ГБ без настройки планировщика dask, но я не был уверен, было ли это связано с моим плохим кодом или это то, чего ожидать от набор данных такого размера. Я буду рад любым советам по размеру партии для SGD, даже просто как доказательство концепцииhttps://github.com/dask/dask/blob/master/dask/array/learn.pyhttp://matthewrocklin.com/blog/work/ 2016/07/12/dask-learn-part-1