spark-dataframe

Structured columnar Daten, analog zu Pandas oder R-Datenrahmen, aber mit einer RDD-Basis, die eine massive, verteilte SQL-ähnliche Operation ermöglicht.
1
Antwort

"aufgelöste (s) Attribut (e) fehlen" beim Ausführen von Join auf pySpark

Ich habe die folgenden zwei pySpark Datenrahmen: %Vor% Jetzt möchte ich sie in gemeinsamen Spalten verbinden, also versuche ich Folgendes: %Vor% Und ich bekomme folgende Fehlermeldung: %Vor% Einige der Spalten, die bei diesem Fehler...
15.10.2016, 17:47
1
Antwort

Wie treten Sie großen Datenrahmen in Spark SQL? (Best Practices, Stabilität, Leistung)

Ich erhalte denselben Fehler wie Fehlende Ausgabe Speicherort für Shuffle , wenn Sie in Spark SQL großen Datenfeldern beitreten. Die Empfehlung besteht darin, MEMORY_AND_DISK und / oder spark.shuffle.memoryFraction 0 festzulegen. Allerdings...
23.06.2016, 09:34
1
Antwort

ON DUPLICATE KEY UPDATE beim Einfügen von pyspark dataframe in eine externe Datenbanktabelle über JDBC

Nun, ich benutze PySpark und ich habe einen Spark-Datenrahmen, mit dem ich die Daten in eine MySQL-Tabelle einfüge. url = "jdbc:mysql://hostname/myDB?user=xyz&password=pwd" df.write.jdbc(url=url, table="myTable", mode="append")...
16.09.2015, 11:21
3
Antworten

Zusammenfassen mehrerer Spalten mit benutzerdefinierten Funktionen in Spark

Ich habe mich gefragt, ob es eine Möglichkeit gibt, eine benutzerdefinierte Aggregationsfunktion für Spark-Dataframes über mehrere Spalten hinweg anzugeben. Ich habe eine solche Tabelle vom Typ (Name, Artikel, Preis): %Vor% zu: Ich möc...
09.06.2016, 23:38
2
Antworten

Spark 2.0 fehlende Funken impliziert

Unter Verwendung von Spark 2.0 sehe ich, dass es möglich ist, einen Datenrahmen von Zeilen in einen Datenrahmen von Fallklassen zu verwandeln. Als ich das versuchte, begrüßte ich eine Nachricht mit dem Hinweis, spark.implicits._ zu importiere...
11.10.2016, 00:27
2
Antworten

Wie kann ich zusätzliche Parameter an UDFs in SparkSql übergeben?

Ich möchte die Datumsspalten in DataFrame analysieren, und für jede Datumsspalte kann sich die Auflösung für das Datum ändern (z. B. 2011/01/10 = & gt; 2011/01, wenn die Auflösung auf "Monat" eingestellt ist "). Ich habe den folgenden Code...
22.02.2016, 05:47
2
Antworten

Spark RDD zu DataFrame Python

Ich versuche, die Spark RDD in einen DataFrame zu konvertieren. Ich habe die Dokumentation und das Beispiel gesehen, wo das Schema übergeben wurde sqlContext.CreateDataFrame(rdd,schema) -Funktion. Aber ich habe 38 Spalten oder Felder und...
26.09.2016, 09:24
1
Antwort

Spark unionAlle mehrere Datenframes

Für eine Reihe von Datenrahmen %Vor% um sie alle zu vereinigen, mache ich %Vor% Gibt es eine elegante und skalierbare Möglichkeit, dies für eine beliebige Anzahl von Datenrahmen zu tun, zum Beispiel von %Vor%     
03.06.2016, 11:00
1
Antwort

Wie benutzt man orderby () in absteigender Reihenfolge in Spark-Funktionen?

Ich brauche eine Fensterfunktion, die durch einige Schlüssel (= Spaltennamen) partitioniert, nach einem anderen Spaltennamen sortiert und die Zeilen mit den obersten x-Rängen zurückgibt. Dies funktioniert in aufsteigender Reihenfolge: %Vor%...
25.07.2016, 16:21
3
Antworten

Was ist effizient, Dataframe oder RDD oder hiveql?

Ich bin ein Neuling für Apache Spark. Mein Job besteht darin, zwei CSV-Dateien zu lesen, bestimmte Spalten daraus auszuwählen, sie zusammenzuführen, zu aggregieren und das Ergebnis in eine einzige CSV-Datei zu schreiben. Zum Beispiel CS...
16.07.2015, 11:49