partitioning

___ answer39529074 ___

Möglicherweise liegt der Append-Modus vor. In diesem Modus sollten neue Dateien mit anderen Namen aus bereits existierenden Dateien erzeugt werden, also listet Spark Dateien in s3 (die langsam ist) jedes Mal auf.

Wir haben auch parket.enable.summary-Metadaten ein bisschen anders gesetzt: javaSparkContext.hadoopConfiguration (). set ("parket.enable.summary-metadata", "false");

    
___ tag123apachespark ___ Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing. ___ tag123partitionierung ___ Partitionierung ist eine Performance-Strategie, bei der Sie möglicherweise sehr große Datengruppen in eine Anzahl kleinerer Datengruppen aufteilen. ___ answer41284104 ___

Versuchen Sie, den Datenrahmen in EMR HDFS (hdfs: // ...) zu schreiben und verwenden Sie dann s3-dist-cp, um die Daten von HDFS nach S3 hochzuladen. Arbeitete für mich.

    
___ tag123parquet ___ Parquet ist ein säulenförmiges Speicherformat für Hadoop. ___ qstntxt ___

Ich habe eine Spark-Streaming-Anwendung, die Parkettdaten aus dem Stream schreibt.

%Vor%

dieses Stück Code läuft jede Stunde, aber im Laufe der Zeit hat sich das Schreiben auf Parkett verlangsamt. Als wir angefangen haben, dauerte es 15 Minuten, um Daten zu schreiben, jetzt dauert es 40 Minuten. Es nimmt Zeit in Anspruch, die zu Daten proportional ist, die auf diesem Pfad existieren. Ich habe versucht, die gleiche Anwendung an einen neuen Ort zu laufen, und das läuft schnell.

Ich habe schemaMerge- und Zusammenfassungsmetadaten deaktiviert:

%Vor%

mit Funken 2.0

Batch-Ausführung: leeres Verzeichnis Verzeichnis mit 350 Ordnern

    
___ qstnhdr ___ Sparkparkett wird langsamer, wenn Partitionen wachsen ___ answer39525970 ___

Ich habe dieses Problem festgestellt. Der Append-Modus ist wahrscheinlich der Übeltäter, da das Finden der Append-Position immer länger dauert, wenn die Größe Ihrer Parkettdatei wächst.

Eine Problemumgehung, die ich gefunden habe, besteht darin, den Ausgabepfad regelmäßig zu ändern. Das Zusammenführen und Umordnen der Daten von allen Ausgabedatenrahmen ist dann normalerweise kein Problem.

%Vor%     
___
3
Antworten

Kann MySQL UNION-Unterabfragen (oder überhaupt) parallelisieren?

Ich verwende eine partitionierte Tabelle mit einer großen Datenmenge. Laut MySQL-Dokumenten ist es in der ToDo-Liste:    Abfragen mit Aggregatfunktionen wie SUM () und COUNT () können   leicht parallelisiert werden. ... aber kann ich die...
28.07.2011, 15:04
3
Antworten

Wie wird der Datenspeicher für das partitionierte Tagging-System entworfen?

Wie gestalte ich Datenspeicher für ein riesiges Tagging-System (wie digg oder delicious)? Es gibt bereits Diskussion darüber, aber es ist über zentralisierte Datenbank. Da die Daten wachsen sollen, müssen wir die Daten bald oder später in m...
14.04.2010, 03:27
1
Antwort

Ist ein global partitionierter Index besser (schneller) als ein nicht partitionierter Index?

Ich möchte herausfinden, ob es einen Leistungsvorteil für die Partitionierung einer numerischen Spalte gibt, die häufig das Ziel einer Abfrage ist. Derzeit habe ich eine materialisierte Ansicht, die ~ 50 Millionen Datensätze enthält. Wenn ich ei...
31.08.2009, 17:35
2
Antworten

MySQL-Lösung für 1 Million Klicks / Tag [geschlossen]

Wir betreiben einen angepassten OpenX Ad Server auf einer MySQL Datenbank, die ca. 1 Million Klicks pro Tag. Wir müssen all diese Klickinformationen speichern und darauf basierende Statistiken anzeigen. Im Moment werden alle Klickinformatione...
29.10.2012, 11:40
1
Antwort

Shuffle Manager in Spark verstehen

Lassen Sie mich klären, wie shuffle depth funktioniert und wie Spark shuffle manager verwendet. Ich melde einige sehr hilfreiche Ressourcen: Ссылка Ссылка Ссылка Wenn ich sie lese, habe ich verstanden, dass es verschiedene...
11.01.2017, 08:09
1
Antwort

Schreiben einer eigenen Partitionswiederherstellung [geschlossen]

Ich stelle fest, dass die Frage, die ich stelle, nicht einfach ist "O, das ist einfach! Mach ein einfaches dies und das und voilà!" Fakt ist, ohne eine Nacht nachzudenken habe ich die falsche Partition gelöscht. Ich habe ein paar Windows- und Li...
27.09.2012, 07:16
2
Antworten

Datenbank sharting auf Heroku

Irgendwann in den nächsten Monaten wird unsere App so groß sein, dass wir unsere DB zerlegen müssen. Wir verwenden Heroku zum Hosten, Node.js / PostgreSQL-Stack. Konzeptionell ist es sinnvoll, dass in unserer App jeder logische Shard einen Be...
13.02.2013, 19:16
3
Antworten

Sparkparkett wird langsamer, wenn Partitionen wachsen

Ich habe eine Spark-Streaming-Anwendung, die Parkettdaten aus dem Stream schreibt. %Vor% dieses Stück Code läuft jede Stunde, aber im Laufe der Zeit hat sich das Schreiben auf Parkett verlangsamt. Als wir angefangen haben, dauerte es 15 Minu...
16.09.2016, 06:46