Ich konnte zuvor eine ungerade 2,7 Millionen mal 3000 Spalten-Datei in R data.table laden, aber jetzt bekomme ich einen segfault. Die Größe der Datei ist immer noch ähnlich. Nicht sicher, was passieren könnte. Die Fehlermeldung hilft auch nicht. Die Maschine hat genug Speicher ~ 256 Gb
%Vor%SessionInfo ()
%Vor%Ausführliche Ausgabe, die mit einer kleineren Testdatei mit 500 K Zeilen arbeitet
%Vor%Aktualisieren
Ich habe die Datendatei genauer betrachtet und es stellte sich heraus, dass einige zufällige Zeilen am Anfang mehr Platz hatten. Nachdem ich diese entfernt hatte, konnte ich die ganze Datei in R (ziemlich erstaunlich im Vergleich zu std data.frame) mit 60 GB RAM laden. Für jetzt bin ich gut zu gehen, aber es könnte es wert sein, zu erkunden, wenn das die Ursache war, aber scheint, als ob dieser Raum die Freud zu diff col Größe verwirrt. Vielleicht kann es spezifischere Fehler ausspucken, wenn möglich.
-Abhi
Update Sep 2015 : Gemäß @ Aruns Kommentar oben zu Frage, hat er dies in v1.9.6 auf CRAN Sep 2015 behoben, # 494 .
Vorherige Antwort für die Nachwelt ...
Ich habe NEWS für v1.8.11 gelesen und sehe keine Absturzkorrekturen für fread
. In der Tat kann ich mich an keine vollständigen Absturzberichte für fread
erinnern, daher ist dies neu.
Bitte übergeben Sie verbose=TRUE
an fread
und sehen Sie, ob Sie damit reproduzieren können. Die Ausgabe gibt mir einen Hinweis darauf, wo der Absturz ist. Es wird auch Informationen über die Datei (Zeilen, Spalten und Typen), die hilfreich sein werden.
Wenn Sie mit einer neuen Sitzung beginnen und die Datei laden, stürzt sie jemals ab?
Btw, iiuc, es wird abhängig von den Spaltentypen ( 2.7e6 * 3000 * 4|8 / 1024^3
) im RAM zwischen 30GB und 60GB liegen. Eine große Datei, aber wie Sie sagen, haben Sie 256 GB RAM, also ja das ist definitiv etwas, mit dem fread
in Ordnung sein sollte. Es ist möglich, dass fread
noch nicht auf diese Größe getestet wurde. Datasets dieser Größe werden meist in kleinere Dateien zerlegt und dann lautet das Idiom:
Aber du hast was du hast: eine sehr große Datei. Also sollte fread
gut damit sein. Erklären Sie einfach, warum es vorher vielleicht nicht gekommen ist.
Tags und Links r data.table