partitioning

___ answer39529074 ___

Möglicherweise liegt der Append-Modus vor. In diesem Modus sollten neue Dateien mit anderen Namen aus bereits existierenden Dateien erzeugt werden, also listet Spark Dateien in s3 (die langsam ist) jedes Mal auf.

Wir haben auch parket.enable.summary-Metadaten ein bisschen anders gesetzt: javaSparkContext.hadoopConfiguration (). set ("parket.enable.summary-metadata", "false");

    
___ tag123apachespark ___ Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing. ___ tag123partitionierung ___ Partitionierung ist eine Performance-Strategie, bei der Sie möglicherweise sehr große Datengruppen in eine Anzahl kleinerer Datengruppen aufteilen. ___ answer41284104 ___

Versuchen Sie, den Datenrahmen in EMR HDFS (hdfs: // ...) zu schreiben und verwenden Sie dann s3-dist-cp, um die Daten von HDFS nach S3 hochzuladen. Arbeitete für mich.

    
___ tag123parquet ___ Parquet ist ein säulenförmiges Speicherformat für Hadoop. ___ qstntxt ___

Ich habe eine Spark-Streaming-Anwendung, die Parkettdaten aus dem Stream schreibt.

%Vor%

dieses Stück Code läuft jede Stunde, aber im Laufe der Zeit hat sich das Schreiben auf Parkett verlangsamt. Als wir angefangen haben, dauerte es 15 Minuten, um Daten zu schreiben, jetzt dauert es 40 Minuten. Es nimmt Zeit in Anspruch, die zu Daten proportional ist, die auf diesem Pfad existieren. Ich habe versucht, die gleiche Anwendung an einen neuen Ort zu laufen, und das läuft schnell.

Ich habe schemaMerge- und Zusammenfassungsmetadaten deaktiviert:

%Vor%

mit Funken 2.0

Batch-Ausführung: leeres Verzeichnis Verzeichnis mit 350 Ordnern

    
___ qstnhdr ___ Sparkparkett wird langsamer, wenn Partitionen wachsen ___ answer39525970 ___

Ich habe dieses Problem festgestellt. Der Append-Modus ist wahrscheinlich der Übeltäter, da das Finden der Append-Position immer länger dauert, wenn die Größe Ihrer Parkettdatei wächst.

Eine Problemumgehung, die ich gefunden habe, besteht darin, den Ausgabepfad regelmäßig zu ändern. Das Zusammenführen und Umordnen der Daten von allen Ausgabedatenrahmen ist dann normalerweise kein Problem.

%Vor%     
___
1
Antwort

Drucken der Partitionstabelle - C-Programm

Ich versuche, eine Partitionstabelle mit C-Programmiersprache zu drucken, alles scheint gut zu funktionieren: Öffnen und Lesen, aber ich verstehe nicht, warum es Müllwerte druckt. Hier ist der Code: %Vor% Es wird Müll statt Partitionstabe...
02.09.2012, 07:09
4
Antworten

Clustering, Sharding oder einfache Partition / Replikation

Ich brauche einen Rat von Ihnen Experten zu diesem Thema. Die Sache ist, dass wir vor ein paar Tagen eine Facebook-Anwendung erstellt haben, die zum Glück sehr viral ist. Das Problem ist, dass unsere Datenbank WIRKLICH VOLL wird (einige Tabellen...
04.01.2011, 14:35
4
Antworten

So wählen Sie Zeilen aus der Partition in MySQL aus

Ich habe eine Partition von 300MB erstellt und versucht, mit diesem Befehl eine Abfrage von p0 partition zu machen %Vor% Aber ich bekomme folgenden Fehler %Vor% Wie schreibt man eine Select-Abfrage, um Daten von einer bestimmten Parti...
01.01.2013, 16:53
2
Antworten

Wie kann eine Azure-Tabelle mit vielen Partitionsschlüsseln mit vielen Tabellen mit weniger Partitionsschlüsseln verglichen werden?

Ich habe eine Windows Azure-Anwendung, in der alle Leseabfragen von TableA auf einzelnen Partitionen für einen Bereich von Zeilenschlüsseln ausgeführt werden. Die Partitionsschlüssel, die dieses Speicherschema unterstützen, sind eigentlich abgef...
12.06.2011, 04:41
6
Antworten

Teilen Sie eine Liste von Zahlen in n-Chunks auf, so dass die Chunks (fast) gleiche Summen haben und behalten Sie die ursprüngliche Reihenfolge bei

Dies ist nicht das Standardpartitionierungsproblem, da ich die Reihenfolge der Elemente in der Liste beibehalten muss. Also zum Beispiel wenn ich eine Liste habe %Vor% und ich möchte zwei Chunks, dann sollte der Split geben %Vor% für...
19.02.2016, 23:35
1
Antwort

Mysql, Handlersocket und Partitionierung?

Kennt das Handlersocket-Plugin eine mögliche Partitionierung auf einer Tabelle? Ich habe keine Erwähnungen in den Dokumentationen dazu gefunden. Ich weiß nicht einmal, ob die Partitionierung für den Handler-Socket transparent ist oder ob es etwa...
12.12.2011, 16:32
1
Antwort

Standardpartitionierungsschema in Spark

Wenn ich den folgenden Befehl ausführe:  %Vor% Es heißt, dass es 10 Partitionen gibt und die Partitionierung mit HashPartitioner erfolgt. Aber wenn ich unter Befehl ausführen:  %Vor% Es besagt, dass es vier Partitionen gibt und der Pa...
28.12.2015, 09:53
1
Antwort

Java 8-Partitionsliste

Ist es möglich, eine Liste in reinem Jdk8 in gleiche Teile (Unterlisten) zu partitionieren. Ich weiß, dass es möglich ist, Guava Listen Klasse, aber können wir das mit reinem Jdk machen? Ich möchte meinem Projekt keine neuen Jars hinzufügen...
23.06.2015, 06:52
5
Antworten

Gibt es einen effizienten Algorithmus für die Integer-Partitionierung mit beschränkter Anzahl von Teilen?

Ich muss eine Methode erstellen, die zwei ganze Zahlen nimmt, die n und m sein müssen, und gibt an, wie viele Möglichkeiten es gibt, m positive Zahlen zu addieren, um n zu erhalten. Zum Beispiel sollte ein Methodenaufruf wie dieser...
02.10.2015, 12:40
5
Antworten

Wie bricht man eine Geometrie in Blöcke?

Ich bin mir sicher, dass es bereits einen Algorithmus gibt, der das tut, was ich brauche, aber ich bin mir nicht sicher, welcher Satz für Google oder welche Algorithmuskategorie es ist. Hier ist mein Problem: Ich habe ein Polyeder, das aus me...
03.06.2015, 22:21