Die Spaltennamen in diesem Beispiel von spark-sql stammen von case class Person
.
In vielen Fällen können die Parameternamen jedoch geändert werden. Dies würde dazu führen, dass Spalten nicht gefunden werden, wenn die Datei nicht aktualisiert wurde, um die Änderung widerzuspiegeln.
Wie kann ich eine geeignete Zuordnung angeben?
Ich denke so etwas wie:
%Vor% Grundsätzlich kann das gesamte Mapping mit DataFrame.select(...)
erreicht werden. (Hier gehe ich davon aus, dass keine Typkonvertierungen vorgenommen werden müssen.)
Angesichts der Vorwärts- und Rückwärts-Abbildung als Karten ist der wesentliche Teil
wobei mapping ein Array von Column
s mit Alias ist.
Wenn Sie einen Datenrahmen wieder in eine RDD [Person] konvertieren müssen, dann
%Vor%Sehen Sie sich auch Wie Spark SchemaRDD in RDD meiner Fallklasse konvertieren?
Tags und Links scala apache-spark apache-spark-sql parquet