Pandas: Lauflänge von NaN-Löchern

8

Ich habe Hunderte von Zeitreihen-Objekten mit jeweils 100000 Einträgen. Ein gewisser Prozentsatz der Dateneinträge fehlt (NaN). Für meine Anwendung ist es wichtig, ob es sich um einzelne, verstreute NaNs oder lange Sequenzen von NaNs handelt.

Daher möchte ich eine Funktion, die mir die Lauflänge jeder zusammenhängenden Sequenz von NaN gibt. Ich kann

tun %Vor%

um eine Reihe von Bool zu bekommen. Und ich kann einen beweglichen Median oder einen gleitenden Durchschnitt machen, um eine Vorstellung von der Größe der Datenlöcher zu bekommen. Es wäre jedoch schön, wenn es eine effiziente Möglichkeit gäbe, eine Liste von Lochlängen für eine Serie zu erhalten.

Das heißt, es wäre schön, ein myfunc zu haben, damit

%Vor%

(weil es 1, 3 bzw. 2 NaNs gibt)

Daraus kann ich Histogramme von Lochlängen und von and oder or von isnull von mehreren Serien (die sich gegenseitig ersetzen könnten) und anderen schönen Dingen machen.

Ich würde auch gerne andere Wege finden, um die "Klumpigkeit" der Datenlöcher zu quantifizieren.

    
Bjarke Ebert 31.05.2013, 12:34
quelle

1 Antwort

8
%Vor%

führt zu

%Vor%     
Wouter Overmeire 31.05.2013, 12:58
quelle

Tags und Links