Datenbereinigung ist das Entfernen oder Reparieren von Fehlern und das Normalisieren von Daten, die in Computerprogrammen verwendet werden. Zum Beispiel können Ausreißer entfernt werden, fehlende Abtastwerte können interpoliert werden, ungültige Werte können als nicht verfügbar markiert werden und synonyme Werte können zusammengeführt werden.
Ein Ansatz zur Datenbereinigung ist das "Tidy Data" -Framework von Wickham, http://vita.had.co.nz/papers/tidy-data.pdf, was bedeutet, dass jede Zeile eine Beobachtung ist und jede Spalte eine Variable ist.
Ich habe mithilfe des twitteR-Pakets Tweets aus Twitter extrahiert und in einer Textdatei gespeichert.
Ich habe folgendes am Corpus durchgeführt
%Vor%
(mit mc.cores = 1 und lazy = True, sonst läuft R auf mac in Fehlern)
%Vor%
Aber die...
10.07.2015, 19:04
Ich arbeite an HCUP-Daten und dies hat Wertebereiche in einer einzelnen Spalte, die in mehrere Spalten aufgeteilt werden müssen. Unten ist der HCUP-Datenrahmen als Referenz:
%Vor%
Die gewünschte Ausgabe sollte lauten:
%Vor%
Mein Ansatz f...
13.10.2015, 21:50