Tabellierte Daten aus einem PDF in Pandas

8

Ich habe folgende Daten:

%Vor%

Die PDF-Datei, aus der Daten extrahiert werden sollen, sieht folgendermaßen aus:

%Vor%

Ich möchte es verarbeiten und eine .csv damit erstellen, damit ich es in einem Datenrahmen speichern und damit analysieren kann. Ich weiß nicht, wie ich es reinigen könnte.

Ich habe versucht mit:

%Vor%

Dennoch sollte ich von der Marke MotorCycle trennen und sie in einen Datenrahmen umwandeln. Vielleicht gibt es bessere Ansätze als die, die ich benutze.

Beim Extrahieren der Daten im HTML-Format bekomme ich:

%Vor%     
Gotey 16.01.2018, 17:16
quelle

1 Antwort

1

Sobald ich den HTML-Code habe, putze ich ihn mit:

%Vor%

und

%Vor%

von dort muss ich eine Funktion schreiben, die Relationen zwischen diesen Objekten findet, damit ich einen Datenrahmen konstruieren kann:

%Vor%     
Gotey 20.01.2018, 22:04
quelle

Tags und Links