Was ist der einfachste Weg, um Daten aus einer PDF zu extrahieren?

9

Ich muss Daten aus einigen PDF-Dokumenten extrahieren (mit Java). Ich muss wissen, was der einfachste Weg wäre.

Ich habe iText ausprobiert. Es ist ziemlich kompliziert für meine Bedürfnisse. Außerdem ist es nicht für kommerzielle Projekte frei verfügbar. Es ist also keine Option. Ich habe auch versucht, PDFBox, und stieß auf verschiedene NoClassDefFoundError Fehler.

Ich habe gegoogelt und bin auf einige andere Optionen wie PDF Clown, jPod gestoßen, aber ich habe keine Zeit, mit all diesen Bibliotheken zu experimentieren. Ich vertraue auf die Erfahrung der Community mit PDF-Lesen durch Java.

Beachten Sie, dass ich keine PDF-Dokumente erstellen oder bearbeiten muss. Ich muss nur Textdaten aus PDF-Dokumenten mit moderater Layout-Komplexität extrahieren.

Bitte schlagen Sie den schnellsten und einfachsten Weg vor, Text aus PDF-Dokumenten zu extrahieren. Danke.

    
Sebastian Fork 26.07.2011, 14:37
quelle

4 Antworten

2

Ich benutze JPedal und bin sehr zufrieden mit den Ergebnissen. Es ist nicht kostenlos, aber es ist von hoher Qualität und die Ausgabe für die Bilderzeugung aus PDFs oder Textextraktion ist wirklich nett.

Und als bezahlte Bibliothek ist die Unterstützung immer da, um zu antworten.

    
Maurício Linhares 26.07.2011 14:40
quelle
2

Ich empfehle Apache Tika . Apache Tika ist im Grunde ein Toolkit, das Daten aus vielen Arten von Dokumenten, einschließlich PDFs, extrahiert.

Der Vorteil von Tika (abgesehen davon, dass es kostenlos ist) ist, dass es ein Teilprojekt von Apache Lucene ist, einer sehr robusten Open-Source-Suchmaschine. Tika enthält einen integrierten PDF-Parser, der einen SAX-Content-Handler verwendet, um PDF-Daten an Ihre Anwendung zu übergeben. Es kann auch Daten aus verschlüsselten PDFs extrahieren und Sie können einen vorhandenen Parser erstellen oder unterklassifizieren, um das Verhalten anzupassen.

Der Code ist einfach. Um die Daten aus einer PDF-Datei zu extrahieren, müssen Sie lediglich eine Parser-Klasse erstellen, die die Parser-Schnittstelle implementiert und eine parse () -Methode definiert:

%Vor%

Um den Parser auszuführen, könnten Sie dann Folgendes tun:

%Vor%     
Kyle 26.07.2011 15:51
quelle
1

Ich habe PDFBox verwendet, um Text für die Lucene-Indexierung ohne zu viele Probleme zu extrahieren. Seine Fehler- / Warnungsprotokollierung ist ziemlich ausführlich, wenn ich mich recht erinnere - was war die Ursache für diese Fehler, die Sie erhalten haben?

    
Petteri Hietavirta 26.07.2011 14:44
quelle
0

Ich verstehe, dass dieser Beitrag ziemlich alt ist, aber ich würde empfehlen, von hier aus itext zu verwenden: Ссылка Wenn Sie Maven verwenden, können Sie die Gläser aus Maven Central ziehen: Ссылка

Ich kann nicht verstehen, wie es schwierig sein kann, es zu benutzen:

%Vor%     
testing123 15.10.2014 20:04
quelle

Tags und Links