spark-dataframe

Structured columnar Daten, analog zu Pandas oder R-Datenrahmen, aber mit einer RDD-Basis, die eine massive, verteilte SQL-ähnliche Operation ermöglicht.
2
Antworten

Wie speichere ich einen Spark-Datenrahmen und referenziere ihn in einem anderen Skript

Ist es möglich, einen Datenrahmen zwischenzuspeichern und dann in einem anderen Skript zu referenzieren (abfragen)? ... Mein Ziel ist wie folgt: Erstellen Sie in Skript 1 einen Datenrahmen (df) Führen Sie Skript 1 und cache df aus Suchen...
23.02.2016, 16:54
0
Antworten

Optimieren von funkenarmen Früchten, insbesondere Katalysatoroptimierer und Funkenkonfigurationen [geschlossen]

Ich benutze Spark 2.1.1, und ich benutze die Scala API, obwohl die Sprache weniger wichtig ist. Ich bin daran interessiert, Funkenabfragen / Pipelines effizient zu optimieren. Ich habe viel Material gelesen (einschließlich des großartigen "Learn...
06.12.2017, 02:05
3
Antworten

Lesen von DataFrame aus der partitionierten Parkettdatei

So lesen Sie partitioniertes Parkett mit Zustand als Datenrahmen, das funktioniert gut, %Vor% Partition ist da für day=1 to day=30 ist es möglich etwas wie (day = 5 to 6) oder day=5,day=6 zu lesen, %Vor% Wenn ich * einstel...
11.11.2015, 12:19
2
Antworten

Filter Spark DataFrame, indem mit anderen Kriterien geprüft wird, ob der Wert in einer Liste enthalten ist

Als vereinfachtes Beispiel habe ich versucht, einen Spark DataFrame mit folgendem Code zu filtern: %Vor% Dann ist es falsch: %Vor% Was ist der richtige Weg? Es scheint mir, dass es nach name column aufhört zu lesen. Ist es ein Fehler...
29.11.2015, 09:55
1
Antwort

DataFrame / Dataset groupBy Verhalten / Optimierung

Angenommen, DataFrame df besteht aus den folgenden Spalten:    Name, Nachname, Größe, Breite, Länge, Wiegen Nun möchten wir ein paar Operationen ausführen, zum Beispiel wollen wir ein paar Datenrahmen erstellen, die Daten über Größe un...
02.10.2015, 08:08
3
Antworten

Einfügen von Spark DataType aus Zeichenfolgenliteralen

Ich versuche eine Scala-Funktion zu schreiben, die zu Spark DataTypes basierend auf einer bereitgestellten Eingabezeichenfolge: %Vor% Mein Ziel ist es, eine große Teilmenge, wenn nicht alle, der verfügbaren DataTypes zu unterstützen. Al...
29.09.2016, 18:36
1
Antwort

Zugriff auf Array-Spalte in Spark

Ein Spark DataFrame enthält eine Spalte vom Typ Array [Double]. Es wird eine ClassCastException-Ausnahme ausgelöst, wenn ich versuche, es in einer map () -Funktion zurück zu bekommen. Der folgende scala-Code erzeugt eine Ausnahme. %Vor% Die...
28.10.2015, 12:20
4
Antworten

Wie speichert man einen Datenrahmen als komprimierte (gezippte) CSV?

Ich benutze Spark 1.6.0 und Scala. Ich möchte einen Datenrahmen als komprimiertes CSV-Format speichern. Hier ist, was ich bisher habe (angenommen, ich habe bereits df und sc als SparkContext ): %Vor% Die Ausgabe ist nicht in g...
20.10.2016, 20:32