Tabellierte Daten aus einem PDF in Pandas

Question

Tabellierte Daten aus einem PDF in Pandas

8

Ich habe folgende Daten:

%Vor%

Die PDF-Datei, aus der Daten extrahiert werden sollen, sieht folgendermaßen aus:

%Vor%

Ich möchte es verarbeiten und eine .csv damit erstellen, damit ich es in einem Datenrahmen speichern und damit analysieren kann. Ich weiß nicht, wie ich es reinigen könnte.

Ich habe versucht mit:

%Vor%

Dennoch sollte ich von der Marke MotorCycle trennen und sie in einen Datenrahmen umwandeln. Vielleicht gibt es bessere Ansätze als die, die ich benutze.

Beim Extrahieren der Daten im HTML-Format bekomme ich:

%Vor%

html pdf dataframe

Gotey 16.01.2018, 17:16

quelle

1 Antwort

Tags und Links html pdf dataframe

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Wie können mehrere Kopien derselben Anwendung auf dem Glassfish-Server bereitgestellt werden?

score 1 · Accepted Answer

1

Sobald ich den HTML-Code habe, putze ich ihn mit:

%Vor%

und

%Vor%

von dort muss ich eine Funktion schreiben, die Relationen zwischen diesen Objekten findet, damit ich einen Datenrahmen konstruieren kann:

%Vor%

Gotey 20.01.2018, 22:04

quelle