apache-spark

Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing.
2
Antworten

Wie kann ich in PySpark von einer Transformation in log4j einloggen?

Ich möchte mich während der Umwandlung beim Logger in einem Executor anmelden, wobei Protokollstufen und Formatierung respektiert werden. Leider kann ich nicht auf das Log4j-Logger-Objekt innerhalb der Methode zugreifen, da es nicht serialisierb...
15.03.2016, 21:56
1
Antwort

Was bedeutet "Streaming" in Apache Spark und Apache Flink?

Als ich zur Webseite von Apache Spark Streaming ging, sah ich einen Satz:    Spark Streaming macht es einfach, skalierbare fehlertolerante Streaming-Anwendungen zu erstellen. Und in der Apache Flink Website gibt es einen Satz:    A...
30.06.2015, 10:13
1
Antwort

Apache Spark Joins Beispiel mit Java

Ich bin sehr neu in Apache Spark. Ich möchte mich eigentlich auf die grundlegende Spark-API-Spezifikation konzentrieren und einige Programme mit Spark-API verstehen und schreiben. Ich habe ein Java-Programm mit Apache Spark geschrieben, um das J...
05.02.2015, 07:47
2
Antworten

Wie wird Python Spark Code auf Amazon Aws ausgeführt?

Ich habe einen Python-Code in Spark geschrieben und möchte ihn auf Amazon Elastic Map reduzieren. Mein Code funktioniert auf meinem lokalen Computer sehr gut, aber ich bin etwas verwirrt darüber, wie er auf Amazon AWS ausgeführt wird? Gena...
05.11.2016, 22:01
1
Antwort

YARN: Was ist der Unterschied zwischen Anzahl der Executoren und Executor-Cores in Spark?

Ich lerne Spark bei AWS EMR. Dabei versuche ich den Unterschied zwischen der Anzahl der Executoren (- num-Executor) und Executor-Cores (--executor-cores) zu verstehen. Kann mir bitte jemand sagen? Auch wenn ich versuche, den folgenden Job ein...
25.04.2016, 23:26
4
Antworten

Spark Clusters: Worker-Informationen werden nicht in der Web-Benutzeroberfläche angezeigt

Ich habe Funke Standalone auf einer Gruppe von Clustern installiert. Und ich habe versucht, Cluster über das Clusterstart-Skript zu starten. Ich habe die IP-Adresse des Clusters in die Datei conf / slaves hinzugefügt. Der Master verbindet sich ü...
08.11.2013, 03:24
1
Antwort

Was ist der Unterschied zwischen spark.sql.shuffle.partitions und spark.default.parallelism?

Was ist der Unterschied zwischen spark.sql.shuffle.partitions und spark.default.parallelism ? Ich habe versucht, beide in SparkSQL zu setzen, aber die Aufgabennummer der zweiten Stufe ist immer 200.     
16.08.2017, 02:22
2
Antworten

Lesen von JSON-Dateien in Spark Dataset und Hinzufügen von Spalten aus einer separaten Map

Spark 2.1 und Scala 2.11 hier. Ich habe eine große Map[String,Date] , die 10K Schlüssel / Wert-Paare enthält. Ich habe auch 10K JSON-Dateien auf einem Dateisystem, das für Spark zugänglich ist: %Vor% Jedes KV-Paar in der Karte entspricht d...
01.08.2017, 18:15
3
Antworten

Spark-Job, der auf dem Yarn-Cluster ausgeführt wird java.io.FileNotFoundException: Die Datei wird nicht beendet, obwohl die Datei auf dem Master-Knoten beendet wird

Ich bin ziemlich neu in Spark. Ich habe versucht zu suchen, aber ich konnte keine richtige Lösung finden. Ich habe Hadoop 2.7.2 auf zwei Boxen installiert (ein Master-Knoten und der andere Arbeiter-Knoten) Ich habe den Cluster eingerichtet, inde...
20.04.2016, 19:37
1
Antwort

SparkSQL, Thrift Server und Tableau

Ich frage mich, ob es einen Weg gibt, der die Tabelle sparkSQL in sqlContext direkt für andere Prozesse sichtbar macht, zum Beispiel für Tableau. Ich habe etwas über Spar-Server recherchiert, aber ich habe keine spezifische Erklärung da...
23.07.2015, 20:25