apache-spark

Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing.
3
Antworten

Spring-Boot-Java-Anwendung kann nicht an Spark-Cluster gesendet werden

Ich habe eine Webanwendung mit Spring Boot entwickelt, die Apache Spark zum Abfragen von Daten aus verschiedenen Datenquellen (wie Oracle) verwendet. Zu Beginn hatte ich geplant, die Anwendung auszuführen, ohne sie mit dem Spark-Submit-Skript zu...
16.07.2015, 22:26
1
Antwort

Spark erzwingt log4j

Ich habe ein triviales Funkenprojekt in Scala und möchte Logback verwenden, aber Spark / Hadoop scheint Log4j auf mich zu zwingen. Das scheint nicht mit meinem Verständnis des Zwecks von slf4j übereinzustimmen; ist es ist kein Versehen in F...
01.08.2015, 20:59
1
Antwort

Zurückgeben mehrerer Arrays aus der benutzerdefinierten Aggregatfunktion (UDAF) in Apache Spark SQL

Ich versuche, eine benutzerdefinierte Aggregatfunktion (UDAF) in Java mit Apache Spark SQL zu erstellen, die nach Abschluss mehrere Arrays zurückgibt. Ich habe online gesucht und kann keine Beispiele oder Vorschläge dazu finden. Ich kann ein...
26.11.2015, 13:12
2
Antworten

Ist Apache Spark weniger genau als Scikit Learn?

Ich habe kürzlich versucht, Apache Spark als Ersatz für Scikit Learn kennenzulernen, aber es scheint mir, dass Scikit selbst in einfachen Fällen viel schneller zu einem akkuraten Modell konvergiert als Spark. Zum Beispiel habe ich 1000 Datenpunk...
21.01.2015, 20:29
3
Antworten

Erzeugt, dass Docker keine Jobs akzeptiert

Ich versuche, ein Hallo Welt Beispiel arbeiten mit Funken + Andockfenster, und hier ist mein Code. %Vor% Wenn ich sbt run starte, bekomme ich %Vor% Ich habe sowohl die Cluster-Benutzeroberfläche überprüft, in der ich drei Knoten mit j...
28.05.2014, 21:28
2
Antworten

Methode, um die Anzahl der Kerne für einen Executor auf einem Task-Knoten zu erhalten?

z. Ich brauche eine Liste aller verfügbaren Executoren und ihrer jeweiligen Multithreading-Kapazität (NICHT die gesamte Multithreading-Kapazität, sc.defaultParallelism behandelt das schon). Da dieser Parameter implementierungsabhängig ist (YA...
20.07.2017, 04:59
2
Antworten

Wie speichere ich einen Spark-Datenrahmen und referenziere ihn in einem anderen Skript

Ist es möglich, einen Datenrahmen zwischenzuspeichern und dann in einem anderen Skript zu referenzieren (abfragen)? ... Mein Ziel ist wie folgt: Erstellen Sie in Skript 1 einen Datenrahmen (df) Führen Sie Skript 1 und cache df aus Suchen...
23.02.2016, 16:54
1
Antwort

Funkt Probleme mit Importen in Python

Wir führen einen spark-submit-Befehl für ein Python-Skript aus, das Spark zur Parallelisierung der Objekterkennung in Python mit Caffe verwendet. Das Skript selbst läuft einwandfrei, wenn es in einem Python-only-Skript ausgeführt wird, aber es g...
03.10.2016, 03:54
1
Antwort

Verbindung verweigert, wenn SparkPi lokal ausgeführt wird

Ich versuche eine einfache Ausführung des SparkPi-Beispiels auszuführen. Ich habe den Master und einen Worker gestartet, dann habe ich den Job auf meinem lokalen "Cluster" ausgeführt, aber am Ende habe ich eine Reihe von Fehlern bekommen, die al...
02.03.2014, 15:11
1
Antwort

Was bedeutet Bühne in den Funkenprotokollen?

Wenn ich einen Job mit Funken starte, bekomme ich die folgenden Protokolle? [Stage 0:> (0 + 32) / 32] Hier entspricht 32 der Anzahl der Partitionen von rdd, nach denen ich gefragt habe. Aber ich verstehe nicht, waru...
07.10.2015, 14:29