Verketten Sie zwei große pandas.HDFStore HDF5-Dateien

8

Diese Frage hängt irgendwie mit "Verkettet eine große Anzahl von HDF5-Dateien" zusammen. .

Ich habe mehrere riesige HDF5-Dateien (~ 20GB komprimiert), die nicht in den Arbeitsspeicher passen. Jeder von ihnen speichert mehrere pandas.DataFrame s mit identischem Format und mit Indizes, die sich nicht überschneiden.

Ich möchte sie verketten, um eine einzige HDF5-Datei mit allen ordnungsgemäß verketteten DataFrames zu haben. Eine Möglichkeit, dies zu tun, besteht darin, jeden von ihnen Stück für Stück zu lesen und dann in einer einzigen Datei zu speichern, aber das würde in der Tat ziemlich viel Zeit in Anspruch nehmen.

Gibt es spezielle Tools oder Methoden, um dies ohne das Durchlaufen von Dateien zu tun?

    
Vladimir 07.03.2015, 19:08
quelle

1 Antwort

11

Siehe Dokumentation hier für das odo -Projekt (früher into ). Hinweis: Wenn Sie die into -Bibliothek verwenden, wurde die Reihenfolge der Argumente geändert (das war die Motivation, den Namen zu ändern, um Verwirrung zu vermeiden!)

Sie können grundsätzlich tun:

%Vor%

Das Ausführen mehrerer Operationen wie dieser wird an den rhs-Speicher angehängt.

Dies wird automatisch die Chunk-Operationen für Sie erledigen.

    
Jeff 07.03.2015, 19:39
quelle

Tags und Links