Spark кэширует рабочий набор данных в памяти, а затем выполняет вычисления со скоростью памяти. Есть ли способ контролировать, как долго рабочий набор находится в оперативной памяти?
У меня есть огромное количество данных, доступ к которым осуществляется через работу. Для первоначальной загрузки задания в ОЗУ требуется время, а когда поступает следующее задание, ему приходится снова загружать все данные в ОЗУ, что занимает много времени. Есть ли способ кэшировать данные навсегда (или на определенное время) в ОЗУ с помощью Spark?