apache-spark

Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing.
5
Antworten

DataFrame-Gleichheit in Apache Spark

Angenommen df1 und df2 sind zwei DataFrame s in Apache Spark, die mit zwei verschiedenen Mechanismen berechnet wurden, z. B. Spark SQL im Vergleich zur Scala / Java / Python-API. Gibt es einen idiomatischen Weg, um zu bestimmen, ob d...
03.07.2015, 02:00
1
Antwort

Spark-Konfiguration: SPARK_MEM vs. SPARK_WORKER_MEMORY

In spark-env.sh ist es möglich, die folgenden Umgebungsvariablen zu konfigurieren: %Vor% Wenn ich einen eigenständigen Cluster damit starte: %Vor% Ich kann auf der Webseite von Spark Master UI sehen, dass alle Arbeiter mit nur 3 GB RAM b...
18.06.2013, 14:35
3
Antworten

Verwenden Sie spark-submit, um eine Anwendung an den EC2-Cluster zu senden

Ich bin neu bei Spark und versuche, es auf EC2 auszuführen. Ich folge dem Tutorial auf Spark Webseite, indem ich Spark-ec2 benutze, um einen Spark Cluster zu starten. Dann versuche ich spark-submit zu verwenden, um die Anwendung an den Cluste...
13.06.2014, 07:05
1
Antwort

Syntax beim Festlegen des Schemas für Pypspark.sql mit StructType

Ich bin neu zu funken und spielte mit Pysparks.sql herum. Laut der pyspark.sql Dokumentation hier , kann man das einstellen Spark Datenrahmen und Schema wie folgt: %Vor% Meine Frage ist, wofür steht True in der obigen schema Liste? Ic...
13.05.2015, 12:09
2
Antworten

Wie behebt man "java.io.NotSerializableException: org.apache.kafka.clients.consumer.ConsumerRecord" in Spark Streaming Kafka Consumer?

Spark 2.0.0 Apache Kafka 0.10.1.0 scala 2.11.8 Wenn ich Spark-Streaming und Kafka-Integration mit Kafka-Broker-Version 0.10.1.0 mit dem folgenden Scala-Code schlägt es mit folgender Ausnahme fehl: %Vor% Warum? Wie man es repariert...
13.11.2016, 05:26
2
Antworten

Leere Ausgabe für die Aggregation von Wasserzeichen im Append Mode

Ich benutze Spark 2.2.0-rc1. Ich habe eine Kafka topic , die eine laufende mit Wasserzeichen versehene Aggregation abfragt, mit einem 1 minute -Wasserzeichen, das an console mit append output mode ausgegeben wird. %Vor% Ich drä...
07.06.2017, 04:45
2
Antworten

warum Livy oder Spark-Jobserver anstelle eines einfachen Web-Frameworks?

Ich baue eine RESTful-API neben Apache Spark auf. Das folgende Python-Skript mit spark-submit scheint gut zu funktionieren: %Vor% Aber wenn ich herumgucke, sehe ich Dinge wie Livy und Spark-Jobserver . Ich lese die Dokumentation dieser...
11.01.2017, 20:11
3
Antworten

Aggregation auf Kartenseite in Spark

Ich lerne Funken mit dem Buch "Learning Spark". Kam über diesen Begriff (Seite 54) We can disable map-side aggregation in combineByKey() if we know that our data won’t benefit from it Ich bin verwirrt, was hier mit map-side aggregation gemei...
08.07.2015, 05:10
1
Antwort

Hängen Sie Metadaten an die Vektorspalte in Spark an

Kontext: Ich habe einen Datenrahmen mit zwei Spalten: Label und Features. %Vor% Where features ist eine mllib.linalg.VectorUDT vom numerischen Typ, die mit VectorAssembler erstellt wurde. Frage: Gibt es eine Möglichkeit, dem Feature...
10.02.2016, 01:07
2
Antworten

Wo sucht Spark nach Textdateien?

Ich dachte, dass das Laden von Textdateien nur von Arbeitern / innerhalb des Clusters ausgeführt wird (Sie müssen nur sicherstellen, dass alle Worker Zugriff auf denselben Pfad haben, entweder durch die Bereitstellung dieser Textdatei auf allen...
08.09.2015, 18:34