Was ist Shuffle Read & Shuffle in Apache Spark schreiben?

9

Im folgenden Screenshot von Spark admin, der auf Port 8080 läuft:

Das "Shuffle Read" & amp; "Shuffle Write" -Parameter sind für diesen Code immer leer:

%Vor%

Warum sind "Shuffle Read" & amp; "Shuffle Write" Felder leer? Kann über den Code optimiert werden, um diese Felder zu füllen, um zu verstehen, wie

    
blue-sky 03.12.2014, 16:33
quelle

2 Antworten

2

Ich glaube, Sie müssen Ihre Anwendung im Cluster / verteilten Modus ausführen, um alle Shuffle-Lese- oder -Schreibwerte zu sehen. Typischerweise wird "Shuffle" durch eine Teilmenge von Spark-Aktionen ausgelöst (z. B. groupBy, join usw.)

    
Soumya Simanta 03.12.2014, 16:41
quelle
17

Shuffling bedeutet die Neuzuweisung von Daten zwischen mehreren Spark-Phasen. "Shuffle Write" ist die Summe aller geschriebenen serialisierten Daten aller Executoren vor der Übertragung (normalerweise am Ende einer Phase) und "Shuffle Read" bedeutet die Summe der gelesenen serialisierten Daten aller Executoren zu Beginn einer Phase.

Ihr Programm hat nur eine Stufe, ausgelöst durch die "Collect" -Operation. Es ist kein Mischen erforderlich, da Sie nur eine Reihe aufeinander folgender Map-Operationen haben, die in einer Phase gepipled werden.

Werfen Sie einen Blick auf diese Folien: Ссылка

Es könnte auch helfen, die 5 aus dem Original zu lesen: Ссылка

    
taruxtin 08.06.2015 09:58
quelle

Tags und Links