Suche nach einer Lösung zum Extrahieren von Inhalt aus einer PDF-Datei (mithilfe des Konsolenwerkzeugs oder einer Bibliothek).
Es wird auf dem Server verwendet, um Online-E-Books aus hochgeladenen PDF-Dateien zu erstellen.
Sie müssen folgende Dinge extrahieren:
Betrachten Sie Adobe PDF Library ($ 5000), BCL SDK (?), PDFLib (795 €), QuickPDF (250 $)
Jetzt verwenden wir Open Source pdf2xml (extrahiert Text, Bilder und Links) und GhostScript (Snapshots und Thumbnails). Die restlichen Dinge sind:
Wir zögern, eine Menge Geld zu bezahlen (und möglicherweise Fehler bei der Auswahl einer falschen Lösung zu machen) oder verwenden kostenlose / Open-Source-Lösungen.
Welche BEST-Lösung, um fast alles aus PDF zu extrahieren, würden Sie empfehlen?
Alle Kommentare werden sehr geschätzt.
Klingt nach ein paar Tagen oder Wochen Aufwand, Sie können die Open-Source-Tools an Ihre Bedürfnisse anpassen. Schriften und alles kann sicher extrahiert werden, das muss jeder PDF-Reader trotzdem tun, um sie anzuzeigen.
Sie sollten wahrscheinlich eine Schätzung der Programmierkosten ($ / hr) nehmen und sie mit der geschätzten Zeit multiplizieren, die benötigt würde, um die benötigte Open-Source-Funktionalität hinzuzufügen (60-80 Stunden?). Wenn diese sowieso größer oder fast $ 5000 ist, sollten Sie nur die kommerzielle Software kaufen.
Andernfalls sollten Sie mit Hilfe der (recht guten) PDF-Referenz gut beraten sein dein Weg.
Noch eine Sache, vielleicht finden Sie Poppler , um Ihnen zu helfen. Es ist für das Rendern von PDF, aber das ist sehr verwandt mit dem, was Sie versuchen zu tun.
A: Schriftart: Ich glaube nicht, dass Schriften extrahiert werden können.
B: Nicht sicher über Multimedia
C: Was sind Hotspots?
D: Sieh dir iTextSharp (open source) an, du könntest mehr Seiteninformationen extrahieren.
Es gibt auch eine PDF Suite , die drei SDKs enthält, die speziell zum Extrahieren von Inhalten aus PDF, PDF-Rendering, entwickelt wurden als Bild und in HTML konvertieren. Obwohl keine Font-Dateien Extraktion, aber es unterstützt XML-Ausgabe und Text-Extraktion unter Beibehaltung des ursprünglichen Layouts.
Es gibt ein "PDF Multitool" kostenloses Dienstprogramm, das auf dieser Engine basiert, damit Sie damit spielen können Sehen Sie, wie es für PDF-Dateien funktioniert, die Sie haben.
Haftungsausschluss: Ich arbeite für ByteScout
Ja, Sie können die Texte, Textstilinformationen, Bilder, Linkanmerkungen, Lesezeichen extrahieren und sogar die Absatz-ID-Informationen erhalten, mit Ausnahme der Tabellen. Überprüfen Sie diesen Link.
Es funktioniert wirklich gut.
tika Ссылка Sein Vorteil besteht darin, Text aus mehreren Typen zu extrahieren. aber es kann dein Problem auch lösen.
Für die Umsetzung: Das Ziel von Tika ist es, vorhandene Parser-Bibliotheken wie PDFBox oder Apache POI so gut wie möglich wiederzuverwenden. Daher sind die meisten Parser-Klassen in Tika Adapter für solche externen Bibliotheken.
Ich denke, Tika kann so funktionieren, wie du es beschreibst. Extrahiere Dinge mit Kategorien. (Wird später mehr Code hinzufügen.)
Noch keine genaue Antwort.