Ich versuche einige grundlegende Berechnungen mit einer großen Tabelle (~ 94 Millionen Zeilen, 3 Spalten), die die Verwendung eines Pakets wie ff in R erfordern. Allerdings habe ich Probleme mit diesem Paket und läuft aus von der Erinnerung, obwohl ich weiß, dass mein Computer mehr als fähig ist, damit umzugehen. Ich schließe meine Hardware- / Software-Spezifikationen sowie meinen Code ein, der das ff-Paket nicht korrekt zu verwenden scheint. Ich habe mehr als 100 Stunden damit verbracht, jedes pdf, ppt und jede Webseite zu lesen, die irgendetwas über das ff-Paket erwähnt, und ich habe nichts gefunden, das erklärt, wie man ff klar benutzt (zumindest für einen Amateur wie mich). Jede Hilfe bei dem, was ich falsch mache, wäre sehr willkommen. Diese Logik scheint zu funktionieren, wenn ich bis zu etwa 1,1 Millionen Zeilen zähle, aber dann scheint es danach außerhalb der Grenzen zu gehen.
Ich habe auch versucht, die 'for' Schleife in Stücke 1/200 der Gesamtgröße zu zerlegen; Erstellen neuer ff-Objekte für bestehende ShortPrice & amp; LongPrice ff-Dateien bei jedem Durchgang der Schleife, dann rm (), gc () am Ende jedes Durchlaufs. Wenn ich am Anfang die ff-Dateien für jede Spalte durch read.table.ffdf erstelle, verliere ich aus irgendeinem Grund die TradePosition-Werte, wenn ich versuche, ein neues ff-Objekt mit vmode="quad", "integer" zur bestehenden TradePosition ff-Datei zu erstellen "oder" roh ".
Hardware- / Software-Spezifikationen:
Daten / Tabellen:
Code:
%Vor%Erste Anmerkung: Es ist schade, dass Sie eine 32-Bit-Version von R ausführen, wenn Sie 16 GB RAM haben, warum nicht eine 64-Bit-Version, um es vollständig zu nutzen?
Für Ihre Frage: Sie verwenden weder ff noch R, wie Henrico darauf hinweist. Das Schleifen über jede Zeile in R ist einfach nicht der Weg, Dinge zu tun, nicht in ff, nicht in Basis R. Sie müssen Ihren Code vektorisieren. Ich empfehle Ihnen, einem R-Kurs zu folgen, der nicht mit der Verarbeitung großer Datenmengen, sondern mit den grundlegenden Konzepten der R-Datenverarbeitung zu tun hat.
Abgesehen von dieser Bemerkung, hier ist, was Sie suchen in ff mit einigen zusätzlichen Dienstprogrammen in Paket ffbase. Beachten Sie, dass ich nicht genau auf Ihre genaue Beschreibung von Short / Long und Ihrer Multiplikation geachtet habe, sondern dass Sie die fififelse nach Ihren Bedürfnissen ändern können, wie Sie es mit einer normalen ifelse in Rs Basispaket tun würden. Viel Glück beim Ausprobieren.
%Vor%Hier sind Links zu (IMHO superb) Folien, die beschreiben, wie man große Daten in R verwendet.
Beide stammen aus Vorträgen, die R-Benutzergruppen zugewiesen wurden, und beschreiben verschiedene Vorgehensweisen beim Umgang mit großen Datensätzen. Sie konzentrieren sich auf Bigmemory, aber ff ist auch gekennzeichnet.
Ich bevorzuge, wie einige Kommentatoren, den Big Memory-Ansatz. Vor allem, weil es einfacher ist, eine brauchbare Dokumentation zu finden. Insbesondere ist das Arbeiten mit den Daten der Fluggesellschaften aus den obigen Dias eher eine Augenöffnung.
Dann kann es, je nach Szenario, auch ein großes Sample Ihrer 95 Millionen Zeilen ausreichen, um sinnvolle Schlüsse zu ziehen.
Viel Glück!
Tags und Links r