Ich habe eine Reihe großer Datensätze mit ~ 10 Spalten und ~ 200000 Zeilen. Nicht alle Spalten enthalten Werte für jede Zeile, obwohl mindestens eine Spalte einen Wert für die vorhandene Zeile enthalten muss. Ich möchte einen Schwellenwert für die Anzahl der zulässigen NA
s in einer Zeile festlegen.
Mein Datenframe sieht ungefähr so aus:
%Vor%Und ich möchte in der Lage sein, die Zeilen zu löschen, die mehr als 2 Zellen enthalten, die NA enthalten, um
zu erhalten %Vor% complete.cases
entfernt alle Zeilen, die NA
enthalten, und ich weiß, dass man Zeilen löschen kann, die NA
in bestimmten Spalten enthalten, aber gibt es eine Möglichkeit, sie zu ändern, so dass es nicht spezifisch ist, welche Spalten% enthalten co_de%, aber wie viele der insgesamt tun?
Alternativ wird dieser Datenrahmen generiert, indem mehrere Datenrahmen mit
zusammengeführt werden %Vor%Vielleicht könnte die Zusammenführungsfunktion geändert werden?
Danke
Wenn dat
der Name Ihres data.frames ist, gibt das folgende zurück, was Sie suchen:
Wir verwenden die Ausgabe dieser letzten Anweisung zu Identifizieren Sie, welche Zeilen Sie behalten möchten. Beachten Sie, dass es nicht notwendig ist, dieses letzte logische Element tatsächlich zu speichern.