Read.CSV funktioniert nicht wie erwartet in R

Question

Read.CSV funktioniert nicht wie erwartet in R

7

Ich bin ratlos. Normalerweise funktioniert read.csv wie erwartet, aber ich bin auf ein Problem gestoßen, bei dem das Verhalten unerwartet ist. Es ist wahrscheinlich Benutzerfehler meinerseits, aber jede Hilfe wird geschätzt.

Hier ist die URL für die Datei

%Vor%

Hier ist mein Code, um die Datei zu holen, zu entpacken und zu lesen:

%Vor%

Hier ist mein Problem. Wenn ich die Daten-CSV-Daten in Excel öffne, sehen die Daten wie erwartet aus. Wenn ich die Daten in R lese, heißt die erste Spalte eigentlich row.names. R liest in einer zusätzlichen Datenzeile, aber ich kann nicht herausfinden, wo der "Fehler" auftritt, der dazu führt, dass row.names eine Spalte ist. Es sieht einfach so aus, als würden sich die Daten verschieben.

Was allerdings merkwürdig ist, ist, dass die letzte Spalte in R scheinbar die richtigen Daten enthält.

Hier sind ein paar Zeilen aus den ersten Spalten:

%Vor%

Irgendwelche Gedanken darüber, was ich falsch machen könnte?

r read.csv csv

Btibert3 15.08.2012, 23:29

quelle

3 Antworten

17

Mein Tipp: Verwenden Sie count.fields () als schnelle Diagnose, wenn sich Dateien mit Begrenzern nicht wie erwartet verhalten.

Zählen Sie zuerst die Anzahl der Felder mit table () :

%Vor%

Das sagt Ihnen, dass alle außer einer der Zeilen 452 Felder enthält. Also welche ist die abwegige Linie?

%Vor%

Die erste Zeile ist das Problem. Bei der Überprüfung werden alle Zeilen außer der ersten mit 2 Kommas abgeschlossen.

Die Frage ist jetzt: Was heißt das? Soll in der Kopfzeile ein zusätzliches Feld enthalten sein, das weggelassen wurde? Oder wurden die 2 Kommas fälschlicherweise an die anderen Zeilen angehängt? Es wäre am besten, wenn möglich mit demjenigen Kontakt aufzunehmen, der die Daten generiert hat, um die Mehrdeutigkeit zu klären.

neilfws 16.08.2012 02:08

quelle

0

Ich weiß, dass Sie eine Antwort gefunden haben, aber da Ihre Antwort mir geholfen hat, dies herauszufinden, teile ich:

Wenn Sie in R eine Datei mit verschiedenen Spalten für verschiedene Zeilen einlesen, wie folgt:

%Vor%

es würde eingelesen werden, die fehlenden Spalten mit NAs zu füllen, so:

%Vor%

ABER! Wenn die Zeile mit den größten Spalten nicht die erste Zeile ist, wie folgt:

%Vor%

dann würde es auf eine etwas verwirrende Weise gelesen werden:

%Vor%

(überwältigend, bevor Sie das Problem herausgefunden haben und ziemlich einfach danach!)

Ich hoffe nur, dass es jemandem helfen kann!

hannarud 16.04.2017 17:57

quelle

Tags und Links r read.csv csv

Django: Verwenden von Annotate, Count und Distinct in einem Queryset as3 zufälliges Array - randomize Array - ActionScript 3

score 5 · Accepted Answer

Ich habe eine Lösung, vielleicht basierend auf mnels Kommentaren

%Vor%

alle Spalten nach dem ersten haben einen extra Trennzeichen, das Excel ignoriert.

%Vor%

die Moral der Geschichte .... hör auf Joshua Ulrich;)

Schnelle Lösung. Öffnen Sie die Datei in Excel und speichern Sie sie. Dadurch werden auch die zusätzlichen Trennzeichen gelöscht.

Alternativ

%Vor%