Was ist das beste Format, um einfache Datenrahmen in R für die Speicherung zu halten und gleichzeitig den semantischen Verlust zu begrenzen?
Ich frage, weil ich einen Datensatz archiviere. In einer idealen Welt hätte mein Datenformat die folgenden Eigenschaften:
Mein erster Gedanke war, CSV zu verwenden, das sehr stabil ist, aber nicht den erforderlichen semantischen Reichtum hat. Auf der anderen Seite erfasst Rs eingebautes RData-Format vollständig die Semantik von R, aber es scheint wahrscheinlich, dass es zwischen Releases wechselt (korrigiere mich, wenn ich falsch liege).
Gibt es ein anderes Format, das eine Balance zwischen diesen drei Imperativen findet?
Dump es in eine Textdatei mit dput
. Auf diese Weise erhalten Sie die gesamte Struktur von Rs Objekten, und zwar in einer textbasierten Form, die, wenn R nicht mehr existiert, relativ leicht analysiert werden kann.
Es ist wahrscheinlich nicht bestanden (3), Ihr 'offener Standard' Test.
R ist ziemlich gut für die Rückwärtskompatibilität mit seinem .RData-Format. Selbst wenn die vom neuesten R geschriebenen Dateien nicht die gleichen wie die älteren sind, liest das letzte R immer noch alte Dateien. Wenn R jedoch nicht mehr existieren sollte, ist das Reverse-Engineering des Binärformats um Größenordnungen schwieriger als das Erzeugen der Ausgabe von dput
.
Tags und Links r persistence data-formats