Welche Formel verwendet Spark, um die Anzahl reduzierter Aufgaben zu berechnen?
Ich führe ein paar Spark-SQL-Abfragen aus und die Anzahl der Reduzierungsaufgaben ist immer 200. Die Anzahl der Map-Aufgaben für diese Abfragen ist 154. Ich bin auf Spark 1.4.1.
Ist dies mit spark.shuffle.sort.bypassMergeThreshold verbunden, das standardmäßig auf 200
gesetzt ist Es ist spark.sql.shuffle.partitions
, wonach Sie suchen. Laut Spark SQL-Programmierhandbuch :
Eine weitere verwandte Option ist spark.default.parallelism
, die die 'Standardanzahl von Partitionen in RDDs bestimmt, die von Transformationen wie join, reduceByKey und parallelize zurückgegeben werden, wenn sie nicht vom Benutzer gesetzt werden'. Dies scheint jedoch von Spark SQL und ignoriert zu werden nur relevant, wenn Sie mit einfachen RDDs arbeiten.
Tags und Links apache-spark apache-spark-sql