apache-spark

Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing.
2
Antworten

Ersetze Nullwerte in Spark DataFrame

Ich habe hier eine Lösung gesehen, aber als ich es versuchte, funktioniert es nicht für mich. Zuerst importiere ich eine cars.csv-Datei: %Vor% Was wie folgt aussieht: %Vor% Dann mache ich das: %Vor% Aber die Nullwerte haben sich n...
27.10.2015, 19:10
2
Antworten

Spark SQL: So speichern Sie das Ergebnis der SQL-Abfrage, ohne rdd.cache () zu verwenden

Gibt es eine Möglichkeit, ein Cache-SQL-Abfrageergebnis zwischenzuspeichern, ohne rdd.cache () zu verwenden? für Beispiele: %Vor% Wir können output.cache () verwenden, um das Ergebnis zwischenzuspeichern, aber dann können wir die sql-Abfra...
19.01.2015, 14:42
5
Antworten

TaskSchedulerImpl: Der anfängliche Job hat keine Ressourcen akzeptiert;

Hier ist, was ich versuche zu tun. Ich habe zwei Knoten des DataStax-Unternehmensclusters erstellt, auf denen ich ein Java-Programm erstellt habe, um die Anzahl einer Tabelle (Cassandra-Datenbanktabelle) zu erhalten. Dieses Programm wurde...
06.04.2015, 10:28
4
Antworten

Spark Shell "Fehler beim Initialisieren des Compilers" Fehler auf einem Mac

Ich habe gerade einen Funken auf meiner neuen Maschine installiert und bekomme den folgenden Fehler nach der Installation von Java, Scala und Apache-spark mit Homebrew. Der Installationsvorgang ist unten angegeben: %Vor% Einmal installiert,...
26.09.2017, 22:44
1
Antwort

So fügen Sie eine Spalte mit einer Konstanten im Spark-Java-Datenrahmen hinzu

Ich habe importiert %Vor% in meinem Java-Spark-Treiber Aber %Vor% hier "leuchtet" zeigt immer noch Fehler in Eclipse (Windows). Welche Bibliothek sollte ich hinzufügen, damit es funktioniert.     
22.09.2016, 22:05
1
Antwort

Spark SQL führt eine Carthesian-Join statt einer Inner Join durch

Ich versuche, zwei Datenrahmen miteinander zu verbinden, nachdem ich einige frühere Berechnungen durchgeführt habe. Der Befehl ist einfach: %Vor% Der Join scheint jedoch einen Carthesian-Join auszuführen, wobei er meine ===-Anweisung vollstä...
24.08.2015, 20:06
2
Antworten

Explosion in PySpark

Ich möchte von einem DataFrame, der Listen von Wörtern enthält, in einen DataFrame mit jedem Wort in einer eigenen Zeile transformieren. Wie mache ich eine Explosion in einer Spalte in einem DataFrame? Hier ist ein Beispiel mit einigen mei...
05.07.2016, 18:45
1
Antwort

Spark unionAlle mehrere Datenframes

Für eine Reihe von Datenrahmen %Vor% um sie alle zu vereinigen, mache ich %Vor% Gibt es eine elegante und skalierbare Möglichkeit, dies für eine beliebige Anzahl von Datenrahmen zu tun, zum Beispiel von %Vor%     
03.06.2016, 11:00
2
Antworten

Was ist Shuffle Read & Shuffle in Apache Spark schreiben?

Im folgenden Screenshot von Spark admin, der auf Port 8080 läuft: Das "Shuffle Read" & amp; "Shuffle Write" -Parameter sind für diesen Code immer leer: %Vor% Warum sind "Shuffle Read" & amp; "Shuffle Write" Felder leer? Kann über den...
03.12.2014, 16:33
2
Antworten

Wie verwende ich mehrere Bedingungen mit pyspark.sql.funtions.when ()?

Ich habe einen Datenrahmen mit ein paar Spalten. Jetzt möchte ich eine neue Spalte von 2 anderen Spalten ableiten: %Vor% Damit bekomme ich nur eine Ausnahme: %Vor% Es funktioniert nur mit einer Bedingung: %Vor% Kennt jemand mehrere B...
15.10.2015, 14:56