Я пробовал кластер с одним узлом и кластер с 3 узлами на своем локальном компьютере, чтобы получить 2,5 миллиона записей из cassandra с помощью искры, но в обоих сценариях это занимает 30 секунд только для SELECT COUNT(*) from table
. Мне нужен этот и другие аналогичные счетчики для аналитики в реальном времени.
SparkSession.builder().getOrCreate().sql("SELECT COUNT(*) FROM data").show()