apache-spark

Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing.
1
Antwort

Spark MLlib - Collaborative Filtering Impliziter Feed

Also baue ich ein implizites Feedback-Empfehlungsmodell mit Spark 1.0.0 und versuche, dem Beispiel zu folgen, das sie auf ihrer kollaborativen Filterseite haben: Ссылка Und ich habe sogar das Test-Dataset geladen, auf das sie im Beispiel ve...
03.09.2014, 16:34
1
Antwort

Wie kann ich meine Daten über die Partitionen verteilen?

Bearbeiten : Die Antwort hilft, aber ich habe meine Lösung beschrieben in: MemoryOverhead-Problem in Spark . Ich habe eine RDD mit 202092 Partitionen, die einen Datensatz liest, der von anderen erstellt wurde. Ich kann manuell sehen, dass...
06.08.2016, 01:31
1
Antwort

Was wird verwendet, um eine grafische Ansicht der Speicherbelegung von Spark (mit YARN) zu haben?

Ich ging durch eine der Präsentation auf Spark-Speicher-Management und wollte wissen, wie man ein gutes grafisches Bild der Executor-Speicherverbrauch (etwas ähnliches wie in der Präsentation erwähnt), um Fehler besser aus dem Speicher zu vers...
14.09.2016, 09:34
1
Antwort

sbt Assembly-Schattierung, um ein fettiges Glas zu erzeugen, das auf Spark läuft

Ich benutze SBT Assembly, um ein Fettglas zu schaffen, das auf Funken laufen kann. Abhängigkeiten von grpc-netty . Die Guava-Version von Spark ist älter als die, die von grpc-netty benötigt wird, und ich stolperte in diesen Fehler: java.la...
31.08.2017, 19:48
2
Antworten

Wie kann ich wissen, welche Phase eines Jobs gerade in Apache Spark ausgeführt wird?

Denken Sie daran, ich habe einen Job wie folgt in Spark; CSV-Datei == & gt; Nach einer Spalte filtern == & gt; Beispiel nehmen == & gt; Als JSON speichern Nun muss ich wissen, welchen Schritt ( Abrufen der Datei oder Filtern ode...
14.02.2017, 11:03
4
Antworten

Apache Spark: Pyspark-Absturz für große Datenmengen

Ich bin neu bei Spark. und ich habe eine Eingabedatei mit Trainingsdaten 4000x1800. Wenn ich versuche, diese Daten (geschriebenes Python) zu trainieren, bekomme folgenden Fehler: 14/11/15 22:39:13 Fehler PythonRDD: Python-Worker unerwartet...
16.11.2014, 06:40
2
Antworten

Apache spark, spark-submit, was ist das Verhalten der Option --total-executor-cores

Ich führe einen Spark-Cluster über C ++ - Code, der in Python eingebunden ist. Ich teste gerade verschiedene Konfigurationen von Multi-Threading-Optionen (auf Python-Level oder Spark-Level). Ich verwende Spark mit eigenständigen Binärdateien...
04.05.2015, 13:19
2
Antworten

AWS EMR Spark Python-Protokollierung

Ich führe einen sehr einfachen Spark-Job in AWS EMR aus und kann anscheinend keine Protokollausgabe von meinem Skript erhalten. Ich habe versucht, mit stderr zu drucken: %Vor% Und verwenden Sie den Funkenschreiber wie gezeigt hier : %V...
06.03.2017, 01:05
2
Antworten

Leistungsabfall für eine große Anzahl von Spalten. Pyspark

Ich habe das Problem mit der Verarbeitung von Spark-Wide-Datenrahmen (etwa 9000 Spalten und manchmal mehr) getroffen. Aufgabe: Erstellen Sie einen breiten DF über groupBy und pivot. Transformieren Sie Spalten in Vektor und verarbeiten Sie...
20.02.2018, 08:39
1
Antwort

So bereinigen Sie andere Ressourcen, wenn der Funke gestoppt wird

In meiner Spark-Anwendung gibt es ein object ResourceFactory , das ein akka ActorSystem für die Bereitstellung von Ressourcenclients enthält. Wenn ich diese Spark-Anwendung ausführe, erstellt jeder Arbeiterknoten ein ActorSystem . Das Pro...
13.04.2016, 10:00