So lesen Sie partitioniertes Parkett mit Zustand als Datenrahmen,
das funktioniert gut,
%Vor% Partition ist da für day=1 to day=30
ist es möglich etwas wie (day = 5 to 6)
oder day=5,day=6
zu lesen,
Wenn ich *
einstelle gibt es mir alle 30 Tage Daten und es ist zu groß.
sqlContext.read.parquet
kann mehrere Pfade als Eingabe verwenden. Wenn Sie nur day=5
und day=6
möchten, können Sie einfach zwei Pfade hinzufügen:
Wenn Sie Ordner unter day=X
haben, wie zB country=XX
, wird country
automatisch als Spalte in dataframe
hinzugefügt.
%Vor%EDIT: Ab Spark 1.6 muss eine "basepath" -Option zur Verfügung gestellt werden, damit Spark automatisch Spalten generiert. In Spark 1.6.x müsste das obige wie folgt neu geschrieben werden, um einen Datenrahmen mit den Spalten "data", "year", "month" und "day" zu erstellen:
Wenn Sie für mehrere Tage lesen möchten, zum Beispiel day = 5
und day = 6
und den Bereich im Pfad selbst erwähnen möchten, können Platzhalter verwendet werden:
Platzhalter können auch verwendet werden, um einen Bereich von Tagen anzugeben:
%Vor%Dies entspricht allen Tagen von 5 bis 10.
Tags und Links scala apache-spark spark-dataframe parquet