beeinflussen npartitions das Ergebnis von dask.dataframe.head ()?

Question

beeinflussen npartitions das Ergebnis von dask.dataframe.head ()?

8

Beim Ausführen des folgenden Codes hängt das Ergebnis von dask.dataframe.head () von npartitions ab:

%Vor%

Dies ergibt das folgende Ergebnis:

%Vor%

Wenn ich jedoch npartitions auf 1 oder 2 setze, bekomme ich das erwartete Ergebnis:

%Vor%

Es scheint wichtig zu sein, dass npartitions niedriger ist als die Länge des Datenrahmens. Ist das beabsichtigt? Muss ich die Größe meiner Daten immer überprüfen, bevor ich sie in einen Dask-Rahmen umwandele?

python pandas dask

Arco Bast 09.07.2016, 03:58

quelle

1 Antwort

Tags und Links python pandas dask

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Warum behält DOMParser Inline-Stile von geparstem DOM nicht bei?

score 4 · Accepted Answer

Gemäß der Dokumentation dd.head() wird nur geprüft die erste Partition:

head(n=5, compute=True)

Erste n Zeilen des Datensatzes

Achtung, dies prüft nur die ersten n Zeilen der ersten Partition.

Also ist die Antwort ja, dd.head() wird von der Anzahl der Partitionen in Ihrem dask Datenrahmen beeinflusst.

Allerdings wird erwartet, dass die Anzahl der Zeilen in der ersten Partition größer ist als die Anzahl der Zeilen, die Sie normalerweise anzeigen möchten, wenn dd.head() verwendet wird - andernfalls sollte dasask sich nicht auszahlen. Der einzige häufig auftretende Fall, in dem dies möglicherweise nicht der Fall ist, ist die Übernahme der ersten n rows / Elemente nach der Filterung, wie in dieser Frage .