beeinflussen npartitions das Ergebnis von dask.dataframe.head ()?

8

Beim Ausführen des folgenden Codes hängt das Ergebnis von dask.dataframe.head () von npartitions ab:

%Vor%

Dies ergibt das folgende Ergebnis:

%Vor%

Wenn ich jedoch npartitions auf 1 oder 2 setze, bekomme ich das erwartete Ergebnis:

%Vor%

Es scheint wichtig zu sein, dass npartitions niedriger ist als die Länge des Datenrahmens. Ist das beabsichtigt? Muss ich die Größe meiner Daten immer überprüfen, bevor ich sie in einen Dask-Rahmen umwandele?

    
Arco Bast 09.07.2016, 03:58
quelle

1 Antwort

4

Gemäß der Dokumentation dd.head() wird nur geprüft die erste Partition:

  

head(n=5, compute=True)

     

Erste n Zeilen des Datensatzes

     

Achtung, dies prüft nur die ersten n Zeilen der ersten Partition.

Also ist die Antwort ja, dd.head() wird von der Anzahl der Partitionen in Ihrem dask Datenrahmen beeinflusst.

Allerdings wird erwartet, dass die Anzahl der Zeilen in der ersten Partition größer ist als die Anzahl der Zeilen, die Sie normalerweise anzeigen möchten, wenn dd.head() verwendet wird - andernfalls sollte dasask sich nicht auszahlen. Der einzige häufig auftretende Fall, in dem dies möglicherweise nicht der Fall ist, ist die Übernahme der ersten n rows / Elemente nach der Filterung, wie in dieser Frage .

    
dukebody 09.07.2016, 16:03
quelle

Tags und Links