parquet

Parquet ist ein säulenförmiges Speicherformat für Hadoop.
1
Antwort

Spark SQL konnte das Schreiben von Parquet-Daten mit einer großen Anzahl von Shards nicht abschließen

Ich versuche, Apache Spark SQL zu verwenden, um JSL-Protokolldaten in S3 in Parquet-Dateien auch auf S3 zu setzen. Mein Code ist im Grunde: %Vor% Dieser Code funktioniert, wenn ich bis zu 2000 Partitionen habe und für 5000 oder mehr fehlschl...
10.10.2014, 02:46
1
Antwort

Spark: Welche Optionen können mit DataFrame.saveAsTable oder DataFrameWriter.options übergeben werden?

Weder die Entwickler- noch die API-Dokumentation enthält einen Hinweis darauf, welche Optionen in DataFrame.saveAsTable oder DataFrameWriter.options übergeben werden können, und sie würden sich auf das Speichern einer Hive-Tabelle auswirke...
18.07.2015, 02:43
2
Antworten

EntityTooLarge-Fehler beim Hochladen einer 5G-Datei in Amazon S3

Die Amazon S3-Dateigrößenbeschränkung soll gemäß dieser Ankündigung , aber ich bekomme den folgenden Fehler beim Hochladen einer 5G-Datei %Vor% Das lässt den Eindruck entstehen, dass S3 nur 5G-Uploads akzeptiert. Ich verwende Apache Spark S...
11.10.2014, 22:15
3
Antworten

Überprüfen Sie Parquet von der Befehlszeile

Wie prüfe ich den Inhalt einer Parquet-Datei über die Befehlszeile? Die einzige Option, die ich jetzt sehe, ist %Vor% Ich möchte Vermeiden Sie die Erstellung von local-file und zeigt den Dateiinhalt als json anstelle des typlo...
21.03.2016, 19:49
1
Antwort

Wie passen Dataframe-Spaltennamen zu Scala-Fallklassenattributen zusammen?

Die Spaltennamen in diesem Beispiel von spark-sql stammen von case class Person . %Vor% Ссылка In vielen Fällen können die Parameternamen jedoch geändert werden. Dies würde dazu führen, dass Spalten nicht gefunden werden, wenn die Dat...
12.09.2015, 04:50
3
Antworten

Effizienteres Laden von Parkettdateien in Spark (pySpark v1.2.0)

Ich lade in hochdimensionale Parkett-Dateien, brauche aber nur ein paar Spalten. Mein aktueller Code sieht so aus: %Vor% Mein geistiges Modell für das, was passiert, ist, dass es alle Daten einlädt und dann die Spalten auswirft, die ich nich...
22.04.2015, 16:33
1
Antwort

Verwendung von Bienentisch über Parkett in Schwein

Ich versuche, eine Hive-Tabelle mit Schema string, string, double in einem Ordner zu erstellen, der zwei Parquet-Dateien enthält. Das erste Parkettdateischema ist string, string, double und das Schema der zweiten Datei ist string, double, s...
20.01.2016, 01:58
0
Antworten

Parkett hat beim Lesen keinen Speicher mehr

Ich versuche, mich gegen eine große Matrix zu vermehren, die im Parkettformat gespeichert ist. Ich achte also darauf, die RDD nicht im Speicher zu speichern, sondern bekomme vom Parkettleser einen OOM-Fehler: %Vor% Insbesondere ist die Matri...
06.12.2015, 06:02
3
Antworten

Sparkparkett wird langsamer, wenn Partitionen wachsen

Ich habe eine Spark-Streaming-Anwendung, die Parkettdaten aus dem Stream schreibt. %Vor% dieses Stück Code läuft jede Stunde, aber im Laufe der Zeit hat sich das Schreiben auf Parkett verlangsamt. Als wir angefangen haben, dauerte es 15 Minu...
16.09.2016, 06:46
3
Antworten

Lesen von DataFrame aus der partitionierten Parkettdatei

So lesen Sie partitioniertes Parkett mit Zustand als Datenrahmen, das funktioniert gut, %Vor% Partition ist da für day=1 to day=30 ist es möglich etwas wie (day = 5 to 6) oder day=5,day=6 zu lesen, %Vor% Wenn ich * einstel...
11.11.2015, 12:19