Anzahl Aufgaben reduzieren Spark

Question

Anzahl Aufgaben reduzieren Spark

8

Welche Formel verwendet Spark, um die Anzahl reduzierter Aufgaben zu berechnen?

Ich führe ein paar Spark-SQL-Abfragen aus und die Anzahl der Reduzierungsaufgaben ist immer 200. Die Anzahl der Map-Aufgaben für diese Abfragen ist 154. Ich bin auf Spark 1.4.1.

Ist dies mit spark.shuffle.sort.bypassMergeThreshold verbunden, das standardmäßig auf 200

gesetzt ist

apache-spark apache-spark-sql

Uli Bethke 23.10.2015, 08:12

quelle

2 Antworten

1

Ja, @svgd, das ist der korrekte Parameter. Hier ist, wie Sie es in Scala zurücksetzen:

%Vor%

pmhargis 06.05.2016 19:01

quelle

Tags und Links apache-spark apache-spark-sql

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Selenium wartet darauf, dass Ajax-Inhalt geladen wird - universeller Ansatz

score 15 · Accepted Answer

Es ist spark.sql.shuffle.partitions , wonach Sie suchen. Laut Spark SQL-Programmierhandbuch :

%Vor%

Eine weitere verwandte Option ist spark.default.parallelism , die die 'Standardanzahl von Partitionen in RDDs bestimmt, die von Transformationen wie join, reduceByKey und parallelize zurückgegeben werden, wenn sie nicht vom Benutzer gesetzt werden'. Dies scheint jedoch von Spark SQL und ignoriert zu werden nur relevant, wenn Sie mit einfachen RDDs arbeiten.