Was bedeutet Bühne in den Funkenprotokollen?

8

Wenn ich einen Job mit Funken starte, bekomme ich die folgenden Protokolle?

[Stage 0:> (0 + 32) / 32]

Hier entspricht 32 der Anzahl der Partitionen von rdd, nach denen ich gefragt habe.

Aber ich verstehe nicht, warum es mehrere Stufen gibt und was genau in jeder Phase passiert.

Jede Etappe braucht offensichtlich viel Zeit. Ist es möglich, in weniger Stufen zu erledigen?

    
Harit Vishwakarma 07.10.2015, 14:29
quelle

1 Antwort

4

Eine Stufe in Spark stellt ein Segment der DAG-Berechnung dar, das lokal abgeschlossen wird. Eine Phase bricht bei einer Operation, bei der Daten gemischt werden müssen. Daher wird sie in der Spark-Benutzeroberfläche mit dieser Operation benannt. Wenn Sie Spark 1.4+ verwenden, können Sie dies sogar in der Benutzeroberfläche im DAG-Visualisierungsbereich visualisieren:

Beachten Sie, dass die Aufteilung bei reduceByKey auftritt, was ein Shuffle erfordert, um die vollständige Ausführung abzuschließen.

    
Justin Pihony 07.10.2015 15:07
quelle