python - Verwenden von Pandas-Strukturen mit großem csv (Iterate und Chunksize)

9

Ich habe eine große CSV-Datei, etwa 600mb mit 11 Millionen Zeilen und ich möchte statistische Daten wie Pivots, Histogramme, Grafiken usw. erstellen. Offensichtlich versucht, es einfach zu lesen:

%Vor%

funktioniert nicht, also fand ich iterieren und chunksize in einem ähnlichen Beitrag, also benutzte ich

%Vor%

Alles gut, ich kann zum Beispiel print df.get_chunk(5) und durchsuchen Sie die ganze Datei mit nur

%Vor%

Mein Problem ist, dass ich nicht weiß, wie man solche Sachen unten für das ganze df benutzt und nicht für nur einen Brocken

%Vor%

Ich hoffe, meine Frage ist nicht so verwirrend

    
Thodoris P 11.11.2015, 01:48
quelle

2 Antworten

14
___ tag123python ___ Python ist eine dynamische und stark typisierte Programmiersprache, die die Usability betont. Zwei ähnliche, aber größtenteils inkompatible Versionen von Python sind weit verbreitet (2 und 3). Wenn Sie eine versionsspezifische Python-Frage haben, sollten Sie die Tags [python-2.7] oder [python-3.x] zusätzlich zum Tag [python] verwenden. Wenn Sie eine Python-Variante wie jython, pypy, iron-python usw. verwenden, kennzeichnen Sie diese bitte entsprechend. ___ answer33646461 ___

Sie müssen die Spannfutter verketten. Zum Beispiel:

%Vor%

Und dann führe deine Befehle auf pandas.io.parsers.TextFileReader

aus     
___ tag123csv ___ Comma-Separated Values ​​oder Character-Separated Values ​​(CSV) ist ein standardmäßiges "Flat File Database" -Format zum Speichern tabellarischer Daten im Klartext, das aus einer optionalen Kopfzeile besteht, in der die durch Kommas, Tabulatoren oder andere Felder abgegrenzten Tabellenfelder aufgeführt sind Trennzeichen, gefolgt von einer oder mehreren Zeilen (durch Zeilentrennung getrennt), die die Tabellensätze als getrennte Listen der Werte darstellen. Newlines und Trennzeichen können in (zitierten) Feldern erscheinen. ___ tag123pandas ___ Pandas ist eine Python-Bibliothek für die Manipulation und Analyse von Panel-Daten, z. multidimensionale Zeitreihen- und Querschnittsdatensätze, die häufig in Statistiken, experimentellen wissenschaftlichen Ergebnissen, Ökonometrie oder Finanzen zu finden sind. WICHTIG: Wenn Sie eine Frage mit diesem Tag stellen, markieren Sie bitte Ihre Fragen (in dieser Reihenfolge): [tag: python]; [tag: pandas]; [Etikett: Datenrahmen] / [Etikett: Serie]; (optional) [tag: groupby] / [tag: merge] / etc., abhängig von Ihren spezifischen Anforderungen. ___ qstntxt ___

Ich habe eine große CSV-Datei, etwa 600mb mit 11 Millionen Zeilen und ich möchte statistische Daten wie Pivots, Histogramme, Grafiken usw. erstellen. Offensichtlich versucht, es einfach zu lesen:

%Vor%

funktioniert nicht, also fand ich iterieren und chunksize in einem ähnlichen Beitrag, also benutzte ich

%Vor%

Alles gut, ich kann zum Beispiel concat und durchsuchen Sie die ganze Datei mit nur

%Vor%

Mein Problem ist, dass ich nicht weiß, wie man solche Sachen unten für das ganze df benutzt und nicht für nur einen Brocken

%Vor%

Ich hoffe, meine Frage ist nicht so verwirrend

    
___ answer336646592 ___

Ich denke, dass Sie concat Chunks für df benötigen, da es sich um einen Ausgabetyp handelt der Funktion:

%Vor%

ist kein Datenrahmen, aber %code% - Quelle .

%Vor%

Ich denke, dass ist notwendig Parameter hinzufügen ignore index funktioniert %code% , weil doppelte Indizes vermieden werden.

    
___ tag123dataframe ___ Ein Datenrahmen ist eine tabellarische Datenstruktur. Normalerweise enthält es Daten, bei denen Zeilen Beobachtungen und Spalten verschiedene Variablen sind. Während "data frame" oder "dataframe" für dieses Konzept in mehreren Sprachen verwendet wird (R, Apache Spark, deedle, Maple, die Pandas-Bibliothek in Python und die DataFrames-Bibliothek in Julia), ist "Tabelle" der in MATLAB und SQL. ___ tag123bigdata ___ Big Data ist ein Konzept, das sich mit Datensätzen extremer Volumina beschäftigt. Fragen beziehen sich meist auf Infrastruktur, Algorithmen, Statistiken und Datenstrukturen. ___ qstnhdr ___ python - Verwenden von Pandas-Strukturen mit großem csv (Iterate und Chunksize) ___
jezrael 11.11.2015, 08:20
quelle
3

Sie müssen die Spannfutter verketten. Zum Beispiel:

%Vor%

Und dann führe deine Befehle auf df2

aus     
user29791 11.11.2015 08:08
quelle

Tags und Links