Может ли процесс драйвера работать за пределами кластера Spark?

Я прочитал ответ от Какие условия должны развертывать кластер использовать режим вместо клиента?,

(В режиме клиента) Вы можете запустить spark-submit на своем ноутбуке, и программа драйвера будет работать на вашем ноутбуке.

Кроме того, Spark Doc говорит:

В клиентском режиме драйвер запускается в том же процессе, что и клиент, отправляющий заявку.

Означает ли это, что я могу отправлять задачи Spark с любого компьютера, если он доступен с главного компьютера и имеет среду Spark?

Или, другими словами, может ли процесс драйвера работать вне кластера Spark?


person chenzhongpu    schedule 30.07.2016    source источник


Ответы (2)


Да, драйвер может работать на вашем ноутбуке. Однако имейте в виду:

  • Драйверу Spark потребуется конфигурация Hadoop для взаимодействия с YARN и HDFS. Вы можете скопировать его из кластера и указать на него через HADOOP_CONF_DIR.
  • Драйвер Spark будет прослушивать множество портов и ожидать, что исполнители смогут подключиться к нему. Он будет рекламировать имя хоста вашего ноутбука. Убедитесь, что он может быть разрешен и все порты доступны из среды кластера.
person Daniel Darabos    schedule 30.07.2016
comment
В большей степени, чем YARN и HDFS, драйвер должен использовать тот же тип файловой системы, что и рабочие процессы: например. чтобы сделать dataframe.write(path), тогда path должен существовать как для водителя, так и для рабочих, что может быть проблемой, если рабочие работают, например, в Linux, а драйвер на ноутбуке с Windows... - person Vince.Bdn; 21.11.2017
comment
path обычно будет hdfs://.... Это не вопрос Windows против Linux. - person Daniel Darabos; 27.11.2017

Да, я запускаю задания spark-submit по локальной сети, используя параметр --deploy-mode cluster. Однако в настоящее время возникает эта проблема: ответ сервера (объект json) не т очень описательный.

person Rdesmond    schedule 12.08.2016