Статьи по тематике apache-spark

Публикации по теме 'apache-spark'

Машинное обучение и большие данные : искрометный подход

Использование машинного обучения для анализа больших данных с помощью Spark С развитием более дешевых хранилищ предприятия производят все больше и больше данных, связанных с их деятельностью. Компания может получить конкурентное преимущество, внедрив процессы для анализа огромного количества данных, которые она производит. Тем не менее, для эффективного использования таких данных требуется много вычислительной мощности. Spark предлагает решение для компаний, которые хотят активно..

Вопросы по теме 'apache-spark'

Требуются ли для автономного кластера Spark однородные машины?

Я хочу запустить приложение graphx в кластере, который включает машины с разным объемом оперативной памяти. На данный момент я попытался использовать автономный кластер spark. Но, похоже, я не могу настроить свойство spark.executor.memory для каждой...

131 просмотров

apache-spark

26.12.2023

Ошибка при получении данных из Cassandra с помощью коннектора Apache Spark в java

У меня проблема с получением данных из таблицы Cassandra с помощью sparkCassandraConnector. Я создал пространство имен «ks» и таблицу «student» в Cassandra. таблица выглядит следующим образом: id | имя ----+----------- 10 | Екатерина Я...

683 просмотров

java cassandra apache-spark

22.10.2023

Искра Apache в кэшировании памяти

Spark кэширует рабочий набор данных в памяти, а затем выполняет вычисления со скоростью памяти. Есть ли способ контролировать, как долго рабочий набор находится в оперативной памяти? У меня есть огромное количество данных, доступ к которым...

6381 просмотров

java caching apache-spark

10.12.2023

Настройка газированной воды на чистой машине Ubuntu

Я пытался настроить Hadoop/Spark/Sparkling Water на чистой машине с Ubuntu 14.04 в частном облаке на Amazon. Все делаю под рутом. Я успешно получаю java-6, scala 2.10.5, затем wget и распаковываю hadoop 2.6, spark 1.2.1 и газированную воду 0.2.1-47....

286 просмотров

apache-spark hadoop h2o

02.10.2023

Где находятся журналы Spark в EMR?

Я не могу найти журналы ошибок или сообщения от println вызовов в Scala при выполнении заданий на Spark в EMR . Где я могу получить к ним доступ? Я отправляю Spark job , написанный в Scala , в EMR , используя script-runner.jar с...

18210 просмотров

apache-spark scala emr

29.11.2023

Spark DataFrame и переименование нескольких столбцов (Java)

Есть ли более приятный способ префикса или переименования всех или нескольких столбцов одновременно данного SparkSQL DataFrame , чем вызов несколько раз dataFrame.withColumnRenamed() ? Например, если я хочу обнаружить изменения (используя полное...

25198 просмотров

java apache-spark apache-spark-sql

28.11.2023

Spark: разделить CSV с новыми строками в поле потока октетов

Я использую Scala для анализа файлов CSV. Некоторые из этих файлов имеют поля, которые не являются текстовыми данными, такими как изображения или потоки октетов. Я хотел бы использовать метод Apache Spark textFile() для разделения CSV на строки и...

560 просмотров

csv apache-spark scala

02.11.2023

Причина: ОШИБКА XSDB6: возможно, другой экземпляр Derby уже загрузил базу данных.

Я пытаюсь запустить SparkSQL: val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) Но ошибка, которую я получаю, ниже: ... 125 more Caused by: java.sql.SQLException: Another instance of Derby may have already booted...

37014 просмотров

apache-spark hadoop derby

03.11.2023

Spark SQL: объем памяти кеш-памяти улучшается с помощью «упорядочить по»

У меня есть два сценария, в которых я 23 GB разделил parquet данные и читаю несколько columns & caching их заранее, чтобы впоследствии запустить серию последующих запросов. Настройка : Кластер: 12 узлов ЭМИ Версия Spark: 1.6...

1154 просмотров

sql performance apache-spark apache-spark-sql scala

20.11.2023

Не удается создать кадры данных Spark Phoenix.

Я пытаюсь загрузить данные из Apache Phoenix в Spark DataFrame. Мне удалось успешно создать RDD со следующим кодом: val sc = new SparkContext("local", "phoenix-test") val sqlContext = new org.apache.spark.sql.SQLContext(sc) val foo:...

502 просмотров

apache-spark dataframe hbase phoenix

20.10.2023

Может ли процесс драйвера работать за пределами кластера Spark?

Я прочитал ответ от Какие условия должны развертывать кластер использовать режим вместо клиента? , (В режиме клиента) Вы можете запустить spark-submit на своем ноутбуке, и программа драйвера будет работать на вашем ноутбуке. Кроме того,...

983 просмотров

apache-spark

29.09.2023

Apache Spark не может подключиться к мастеру с помощью скрипта spark-submit на Amazon EC2

Сначала я использовал сценарий spark-ec2 для настройки кластера Spark на EC2 с одним главным и одним рабочим узлом. После того, как я подключусь к моему мастер-экземпляру EC2 с помощью ssh, я хочу запустить сценарий spark-submit, чтобы я мог...

1516 просмотров

amazon-ec2 apache-spark

15.12.2023

Spark sql (1.4): получить текущую метку времени

Я знаю, что в Spark 1.5 и выше есть функция current_timestamp, но мы все еще на 1.4. Как добавить столбец в DataFrame, для которого задана «текущая временная метка»? df.withColumn("date_inserted", ????)

1244 просмотров

java apache-spark apache-spark-sql scala

20.11.2023

проверить, является ли значение строки нулевым в искровом кадре данных

Я использую пользовательскую функцию в pyspark, чтобы проверить условие для каждой строки в кадре данных искры и добавить столбцы, если условие истинно. Код выглядит следующим образом: from pyspark.sql.types import * from pyspark.sql.functions...

26652 просмотров

apache-spark pyspark user-defined-functions isnull spark-dataframe

30.09.2023

Spark Streaming не содержит KafkaUtils

Я создал проект, в котором хочу использовать поток кафки. По этой причине мне нужно использовать KafkaUtils из потоковой передачи искры. Но когда я пытаюсь использовать KafkaUtils, они не могут быть разрешены. Я добавил...

1260 просмотров

java apache-kafka apache-spark

10.12.2023

Как анализировать сложные данные JSON в потоковой передаче искры в Java

Мы разрабатываем IOT-приложение Мы получаем следующий поток данных от каждого устройства, для которого мы хотим выполнить анализ,...

4589 просмотров

java json apache-spark analytics spark-streaming

11.11.2023

Рассчитать максимальное количество наблюдений на группу

Я использую Spark 1.6.2 . Мне нужно найти максимальное количество для каждой группы. val myData = Seq(("aa1", "GROUP_A", "10"),("aa1","GROUP_A", "12"),("aa2","GROUP_A", "12"),("aa3", "GROUP_B", "14"),("aa3","GROUP_B",...

1248 просмотров

apache-spark scala apache-spark-1.6

06.10.2023

ibm bluemix spark отправить

Я новичок в Блюмикс. Я создал службу Apache Spark и попытался отправить простую банку hello-world через spark submit. (Я использовал эту ссылку для перехода:...

107 просмотров

ibm-cloud apache-spark scala spark-submit

18.10.2023

Какова основная причина самоподавления, не разрешенного в Spark?

Когда искра записывала большой файл в HDFS с помощью saveAsTextFile, я получил ошибку: java.lang.IllegalArgumentException: Self-suppression not permitted at java.lang.Throwable.addSuppressed(Throwable.java:1043) Caused by: java.io.IOException: All...

13303 просмотров

apache-spark hdfs

19.10.2023

Создание Spark RDD из файла, расположенного на Google Диске, с использованием Python в Colab.Research.Google

Мне удалось запустить программу Python 3/Spark 2.2.1 на платформе Google Colab.Research: !apt-get update !apt-get install openjdk-8-jdk-headless -qq > /dev/null !wget -q http://apache.osuosl.org/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz...

2402 просмотров

python-3.x google-drive-api apache-spark google-colaboratory

04.10.2023

Публикации по теме 'apache-spark'

Машинное обучение и большие данные : искрометный подход

Вопросы по теме 'apache-spark'

Похожие вопросы