Публикации по теме 'apache-spark'


Машинное обучение и большие данные : искрометный подход
Использование машинного обучения для анализа больших данных с помощью Spark С развитием более дешевых хранилищ предприятия производят все больше и больше данных, связанных с их деятельностью. Компания может получить конкурентное преимущество, внедрив процессы для анализа огромного количества данных, которые она производит. Тем не менее, для эффективного использования таких данных требуется много вычислительной мощности. Spark предлагает решение для компаний, которые хотят активно..

Вопросы по теме 'apache-spark'

Требуются ли для автономного кластера Spark однородные машины?
Я хочу запустить приложение graphx в кластере, который включает машины с разным объемом оперативной памяти. На данный момент я попытался использовать автономный кластер spark. Но, похоже, я не могу настроить свойство spark.executor.memory для каждой...
131 просмотров
schedule 26.12.2023

Ошибка при получении данных из Cassandra с помощью коннектора Apache Spark в java
У меня проблема с получением данных из таблицы Cassandra с помощью sparkCassandraConnector. Я создал пространство имен «ks» и таблицу «student» в Cassandra. таблица выглядит следующим образом: id | имя ----+----------- 10 | Екатерина Я...
683 просмотров
schedule 22.10.2023

Искра Apache в кэшировании памяти
Spark кэширует рабочий набор данных в памяти, а затем выполняет вычисления со скоростью памяти. Есть ли способ контролировать, как долго рабочий набор находится в оперативной памяти? У меня есть огромное количество данных, доступ к которым...
6381 просмотров
schedule 10.12.2023

Настройка газированной воды на чистой машине Ubuntu
Я пытался настроить Hadoop/Spark/Sparkling Water на чистой машине с Ubuntu 14.04 в частном облаке на Amazon. Все делаю под рутом. Я успешно получаю java-6, scala 2.10.5, затем wget и распаковываю hadoop 2.6, spark 1.2.1 и газированную воду 0.2.1-47....
286 просмотров
schedule 02.10.2023

Где находятся журналы Spark в EMR?
Я не могу найти журналы ошибок или сообщения от println вызовов в Scala при выполнении заданий на Spark в EMR . Где я могу получить к ним доступ? Я отправляю Spark job , написанный в Scala , в EMR , используя script-runner.jar с...
18210 просмотров
schedule 29.11.2023

Spark DataFrame и переименование нескольких столбцов (Java)
Есть ли более приятный способ префикса или переименования всех или нескольких столбцов одновременно данного SparkSQL DataFrame , чем вызов несколько раз dataFrame.withColumnRenamed() ? Например, если я хочу обнаружить изменения (используя полное...
25198 просмотров
schedule 28.11.2023

Spark: разделить CSV с новыми строками в поле потока октетов
Я использую Scala для анализа файлов CSV. Некоторые из этих файлов имеют поля, которые не являются текстовыми данными, такими как изображения или потоки октетов. Я хотел бы использовать метод Apache Spark textFile() для разделения CSV на строки и...
560 просмотров
schedule 02.11.2023

Причина: ОШИБКА XSDB6: возможно, другой экземпляр Derby уже загрузил базу данных.
Я пытаюсь запустить SparkSQL: val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) Но ошибка, которую я получаю, ниже: ... 125 more Caused by: java.sql.SQLException: Another instance of Derby may have already booted...
37014 просмотров
schedule 03.11.2023

Spark SQL: объем памяти кеш-памяти улучшается с помощью «упорядочить по»
У меня есть два сценария, в которых я 23 GB разделил parquet данные и читаю несколько columns & caching их заранее, чтобы впоследствии запустить серию последующих запросов. Настройка : Кластер: 12 узлов ЭМИ Версия Spark: 1.6...
1154 просмотров

Не удается создать кадры данных Spark Phoenix.
Я пытаюсь загрузить данные из Apache Phoenix в Spark DataFrame. Мне удалось успешно создать RDD со следующим кодом: val sc = new SparkContext("local", "phoenix-test") val sqlContext = new org.apache.spark.sql.SQLContext(sc) val foo:...
502 просмотров
schedule 20.10.2023

Может ли процесс драйвера работать за пределами кластера Spark?
Я прочитал ответ от Какие условия должны развертывать кластер использовать режим вместо клиента? , (В режиме клиента) Вы можете запустить spark-submit на своем ноутбуке, и программа драйвера будет работать на вашем ноутбуке. Кроме того,...
983 просмотров
schedule 29.09.2023

Apache Spark не может подключиться к мастеру с помощью скрипта spark-submit на Amazon EC2
Сначала я использовал сценарий spark-ec2 для настройки кластера Spark на EC2 с одним главным и одним рабочим узлом. После того, как я подключусь к моему мастер-экземпляру EC2 с помощью ssh, я хочу запустить сценарий spark-submit, чтобы я мог...
1516 просмотров
schedule 15.12.2023

Spark sql (1.4): получить текущую метку времени
Я знаю, что в Spark 1.5 и выше есть функция current_timestamp, но мы все еще на 1.4. Как добавить столбец в DataFrame, для которого задана «текущая временная метка»? df.withColumn("date_inserted", ????)
1244 просмотров
schedule 20.11.2023

проверить, является ли значение строки нулевым в искровом кадре данных
Я использую пользовательскую функцию в pyspark, чтобы проверить условие для каждой строки в кадре данных искры и добавить столбцы, если условие истинно. Код выглядит следующим образом: from pyspark.sql.types import * from pyspark.sql.functions...
26652 просмотров

Spark Streaming не содержит KafkaUtils
Я создал проект, в котором хочу использовать поток кафки. По этой причине мне нужно использовать KafkaUtils из потоковой передачи искры. Но когда я пытаюсь использовать KafkaUtils, они не могут быть разрешены. Я добавил...
1260 просмотров
schedule 10.12.2023

Как анализировать сложные данные JSON в потоковой передаче искры в Java
Мы разрабатываем IOT-приложение Мы получаем следующий поток данных от каждого устройства, для которого мы хотим выполнить анализ,...
4589 просмотров

Рассчитать максимальное количество наблюдений на группу
Я использую Spark 1.6.2 . Мне нужно найти максимальное количество для каждой группы. val myData = Seq(("aa1", "GROUP_A", "10"),("aa1","GROUP_A", "12"),("aa2","GROUP_A", "12"),("aa3", "GROUP_B", "14"),("aa3","GROUP_B",...
1248 просмотров
schedule 06.10.2023

ibm bluemix spark отправить
Я новичок в Блюмикс. Я создал службу Apache Spark и попытался отправить простую банку hello-world через spark submit. (Я использовал эту ссылку для перехода:...
107 просмотров

Какова основная причина самоподавления, не разрешенного в Spark?
Когда искра записывала большой файл в HDFS с помощью saveAsTextFile, я получил ошибку: java.lang.IllegalArgumentException: Self-suppression not permitted at java.lang.Throwable.addSuppressed(Throwable.java:1043) Caused by: java.io.IOException: All...
13303 просмотров
schedule 19.10.2023

Создание Spark RDD из файла, расположенного на Google Диске, с использованием Python в Colab.Research.Google
Мне удалось запустить программу Python 3/Spark 2.2.1 на платформе Google Colab.Research: !apt-get update !apt-get install openjdk-8-jdk-headless -qq > /dev/null !wget -q http://apache.osuosl.org/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz...
2402 просмотров