Welches ist das beste Format zum Speichern von Datenrahmen auf Datenträger in R für die Speicherung?

Question

Welches ist das beste Format zum Speichern von Datenrahmen auf Datenträger in R für die Speicherung?

8

Was ist das beste Format, um einfache Datenrahmen in R für die Speicherung zu halten und gleichzeitig den semantischen Verlust zu begrenzen?

Ich frage, weil ich einen Datensatz archiviere. In einer idealen Welt hätte mein Datenformat die folgenden Eigenschaften:

Stabilität - Das Speicherformat ist mit der zukünftigen Version von R
Semantische Kompatibilität - Das Speicherformat wird die Semantik der primativen Datentypen von R verstehen. Zum Beispiel wird es in der Lage sein, geordnete Faktoren auf vernünftige Weise mit Etiketten zu speichern.
Offener Standard - im Idealfall wird das Format ein offener Standard sein, so dass andere Statistikpakete (jetzt oder in der Zukunft) es verstehen können

Mein erster Gedanke war, CSV zu verwenden, das sehr stabil ist, aber nicht den erforderlichen semantischen Reichtum hat. Auf der anderen Seite erfasst Rs eingebautes RData-Format vollständig die Semantik von R, aber es scheint wahrscheinlich, dass es zwischen Releases wechselt (korrigiere mich, wenn ich falsch liege).

Gibt es ein anderes Format, das eine Balance zwischen diesen drei Imperativen findet?

r persistence data-formats

fmark 09.03.2013, 06:43

quelle

1 Antwort

Tags und Links r persistence data-formats

Django: Verwenden von Annotate, Count und Distinct in einem Queryset THREE.JS Exportieren von JSON-Modellen aus dem Mixer (einschließlich Texturen)

score 4 · Answer 1

Dump es in eine Textdatei mit dput . Auf diese Weise erhalten Sie die gesamte Struktur von Rs Objekten, und zwar in einer textbasierten Form, die, wenn R nicht mehr existiert, relativ leicht analysiert werden kann.

Es ist wahrscheinlich nicht bestanden (3), Ihr 'offener Standard' Test.

R ist ziemlich gut für die Rückwärtskompatibilität mit seinem .RData-Format. Selbst wenn die vom neuesten R geschriebenen Dateien nicht die gleichen wie die älteren sind, liest das letzte R immer noch alte Dateien. Wenn R jedoch nicht mehr existieren sollte, ist das Reverse-Engineering des Binärformats um Größenordnungen schwieriger als das Erzeugen der Ausgabe von dput .