fredred segfault mit 30-GB-Platz getrennt Datei mit einigen Zeilen beginnend mit Leerzeichen

8

Ich konnte zuvor eine ungerade 2,7 Millionen mal 3000 Spalten-Datei in R data.table laden, aber jetzt bekomme ich einen segfault. Die Größe der Datei ist immer noch ähnlich. Nicht sicher, was passieren könnte. Die Fehlermeldung hilft auch nicht. Die Maschine hat genug Speicher ~ 256 Gb

%Vor%

SessionInfo ()

%Vor%

Ausführliche Ausgabe, die mit einer kleineren Testdatei mit 500 K Zeilen arbeitet

%Vor%

Aktualisieren

Ich habe die Datendatei genauer betrachtet und es stellte sich heraus, dass einige zufällige Zeilen am Anfang mehr Platz hatten. Nachdem ich diese entfernt hatte, konnte ich die ganze Datei in R (ziemlich erstaunlich im Vergleich zu std data.frame) mit 60 GB RAM laden. Für jetzt bin ich gut zu gehen, aber es könnte es wert sein, zu erkunden, wenn das die Ursache war, aber scheint, als ob dieser Raum die Freud zu diff col Größe verwirrt. Vielleicht kann es spezifischere Fehler ausspucken, wenn möglich.

-Abhi

    
Abhi 09.01.2014, 00:23
quelle

1 Antwort

8

Update Sep 2015 : Gemäß @ Aruns Kommentar oben zu Frage, hat er dies in v1.9.6 auf CRAN Sep 2015 behoben, # 494 .

Vorherige Antwort für die Nachwelt ...

Ich habe NEWS für v1.8.11 gelesen und sehe keine Absturzkorrekturen für fread . In der Tat kann ich mich an keine vollständigen Absturzberichte für fread erinnern, daher ist dies neu.

Bitte übergeben Sie verbose=TRUE an fread und sehen Sie, ob Sie damit reproduzieren können. Die Ausgabe gibt mir einen Hinweis darauf, wo der Absturz ist. Es wird auch Informationen über die Datei (Zeilen, Spalten und Typen), die hilfreich sein werden.

Wenn Sie mit einer neuen Sitzung beginnen und die Datei laden, stürzt sie jemals ab?

Btw, iiuc, es wird abhängig von den Spaltentypen ( 2.7e6 * 3000 * 4|8 / 1024^3 ) im RAM zwischen 30GB und 60GB liegen. Eine große Datei, aber wie Sie sagen, haben Sie 256 GB RAM, also ja das ist definitiv etwas, mit dem fread in Ordnung sein sollte. Es ist möglich, dass fread noch nicht auf diese Größe getestet wurde. Datasets dieser Größe werden meist in kleinere Dateien zerlegt und dann lautet das Idiom:

%Vor%

Aber du hast was du hast: eine sehr große Datei. Also sollte fread gut damit sein. Erklären Sie einfach, warum es vorher vielleicht nicht gekommen ist.

    
Matt Dowle 09.01.2014 00:51
quelle

Tags und Links