Alles aus PDF extrahieren [geschlossen]

8

Suche nach einer Lösung zum Extrahieren von Inhalt aus einer PDF-Datei (mithilfe des Konsolenwerkzeugs oder einer Bibliothek).

Es wird auf dem Server verwendet, um Online-E-Books aus hochgeladenen PDF-Dateien zu erstellen.

Sie müssen folgende Dinge extrahieren:

  1. Text mit Schriftarten und Stilen;
  2. Bilder;
  3. Audio und Video;
  4. Links und Hotspots.
  5. Seiten-Snapshots und Thumbnails;
  6. allgemeine PDF-Information, z.B. Buchlayouts, Anzahl der Seiten usw.

Betrachten Sie Adobe PDF Library ($ 5000), BCL SDK (?), PDFLib (795 €), QuickPDF (250 $)

Jetzt verwenden wir Open Source pdf2xml (extrahiert Text, Bilder und Links) und GhostScript (Snapshots und Thumbnails). Die restlichen Dinge sind:

  1. Schriften;
  2. Multimedia;
  3. Hotspots;
  4. Seiteninfo.

Wir zögern, eine Menge Geld zu bezahlen (und möglicherweise Fehler bei der Auswahl einer falschen Lösung zu machen) oder verwenden kostenlose / Open-Source-Lösungen.

Welche BEST-Lösung, um fast alles aus PDF zu extrahieren, würden Sie empfehlen?

Alle Kommentare werden sehr geschätzt.

    
Max 12.11.2009, 11:24
quelle

5 Antworten

4

Klingt nach ein paar Tagen oder Wochen Aufwand, Sie können die Open-Source-Tools an Ihre Bedürfnisse anpassen. Schriften und alles kann sicher extrahiert werden, das muss jeder PDF-Reader trotzdem tun, um sie anzuzeigen.

Sie sollten wahrscheinlich eine Schätzung der Programmierkosten ($ / hr) nehmen und sie mit der geschätzten Zeit multiplizieren, die benötigt würde, um die benötigte Open-Source-Funktionalität hinzuzufügen (60-80 Stunden?). Wenn diese sowieso größer oder fast $ 5000 ist, sollten Sie nur die kommerzielle Software kaufen.

Andernfalls sollten Sie mit Hilfe der (recht guten) PDF-Referenz gut beraten sein dein Weg.

Noch eine Sache, vielleicht finden Sie Poppler , um Ihnen zu helfen. Es ist für das Rendern von PDF, aber das ist sehr verwandt mit dem, was Sie versuchen zu tun.

    
Adam Goode 13.11.2009, 15:40
quelle
1

A: Schriftart: Ich glaube nicht, dass Schriften extrahiert werden können.

B: Nicht sicher über Multimedia

C: Was sind Hotspots?

D: Sieh dir iTextSharp (open source) an, du könntest mehr Seiteninformationen extrahieren.

    
Mark Redman 12.11.2009 11:29
quelle
1

Es gibt auch eine PDF Suite , die drei SDKs enthält, die speziell zum Extrahieren von Inhalten aus PDF, PDF-Rendering, entwickelt wurden als Bild und in HTML konvertieren. Obwohl keine Font-Dateien Extraktion, aber es unterstützt XML-Ausgabe und Text-Extraktion unter Beibehaltung des ursprünglichen Layouts.

Es gibt ein "PDF Multitool" kostenloses Dienstprogramm, das auf dieser Engine basiert, damit Sie damit spielen können Sehen Sie, wie es für PDF-Dateien funktioniert, die Sie haben.

Haftungsausschluss: Ich arbeite für ByteScout

    
Eugene M 01.06.2015 11:15
quelle
0

Ja, Sie können die Texte, Textstilinformationen, Bilder, Linkanmerkungen, Lesezeichen extrahieren und sogar die Absatz-ID-Informationen erhalten, mit Ausnahme der Tabellen. Überprüfen Sie diesen Link.

Ссылка

Es funktioniert wirklich gut.

    
Master Stroke 02.08.2011 12:35
quelle
0

tika Ссылка Sein Vorteil besteht darin, Text aus mehreren Typen zu extrahieren. aber es kann dein Problem auch lösen.

Für die Umsetzung: Das Ziel von Tika ist es, vorhandene Parser-Bibliotheken wie PDFBox oder Apache POI so gut wie möglich wiederzuverwenden. Daher sind die meisten Parser-Klassen in Tika Adapter für solche externen Bibliotheken.

Ich denke, Tika kann so funktionieren, wie du es beschreibst. Extrahiere Dinge mit Kategorien. (Wird später mehr Code hinzufügen.)

Noch keine genaue Antwort.

    
paco alcacer 25.09.2014 08:34
quelle

Tags und Links