Anzahl Aufgaben reduzieren Spark

8

Welche Formel verwendet Spark, um die Anzahl reduzierter Aufgaben zu berechnen?

Ich führe ein paar Spark-SQL-Abfragen aus und die Anzahl der Reduzierungsaufgaben ist immer 200. Die Anzahl der Map-Aufgaben für diese Abfragen ist 154. Ich bin auf Spark 1.4.1.

Ist dies mit spark.shuffle.sort.bypassMergeThreshold verbunden, das standardmäßig auf 200

gesetzt ist     
Uli Bethke 23.10.2015, 08:12
quelle

2 Antworten

15

Es ist spark.sql.shuffle.partitions , wonach Sie suchen. Laut Spark SQL-Programmierhandbuch :

%Vor%

Eine weitere verwandte Option ist spark.default.parallelism , die die 'Standardanzahl von Partitionen in RDDs bestimmt, die von Transformationen wie join, reduceByKey und parallelize zurückgegeben werden, wenn sie nicht vom Benutzer gesetzt werden'. Dies scheint jedoch von Spark SQL und ignoriert zu werden nur relevant, wenn Sie mit einfachen RDDs arbeiten.

    
sgvd 23.10.2015, 08:44
quelle
1

Ja, @svgd, das ist der korrekte Parameter. Hier ist, wie Sie es in Scala zurücksetzen:

%Vor%     
pmhargis 06.05.2016 19:01
quelle