Spark SQL konnte das Schreiben von Parquet-Daten mit einer großen Anzahl von Shards nicht abschließen

9

Ich versuche, Apache Spark SQL zu verwenden, um JSL-Protokolldaten in S3 in Parquet-Dateien auch auf S3 zu setzen. Mein Code ist im Grunde:

%Vor%

Dieser Code funktioniert, wenn ich bis zu 2000 Partitionen habe und für 5000 oder mehr fehlschlägt, unabhängig vom Datenvolumen. Normalerweise könnte man die Partitionen einfach auf eine akzeptable Zahl zusammenfassen, aber das ist ein sehr großer Datensatz und bei 2000 Partitionen traf ich das Problem beschreiben in diesem Frage

%Vor%

Ich führe dies auf Spark-1.1.0 auf einem R3.xlarge in ec2. Ich verwende die Spark-Shell-Konsole, um den obigen Code auszuführen. Ich bin in der Lage, nicht-triviale Abfragen auf dem data SchemaRDD Objekt danach durchzuführen, so scheint es kein Ressourcenproblem zu sein. Es ist auch möglich, die resultierende Parquet-Datei zu lesen und abzufragen, sie dauert aufgrund des Mangels an Zusammenfassungsdateien nur sehr lange.

    
Daniel Mahler 10.10.2014, 02:46
quelle

1 Antwort

0

Versuchen Sie, diese Eigenschaft als false festzulegen:

%Vor%     
morfious902002 26.06.2017 19:24
quelle