Was sind die besten Parameter, um ImageMagick zum Umwandeln von PDF-Dateien mit niedriger Qualität in Bilder (für OCR) zu verwenden?

8

Ich habe mehrere PDFs mit niedriger Qualität. Ich möchte OCR verwenden - genauer gesagt, Ocopus , um Text von ihnen zu erhalten. Um zu verwenden, verwende ich zuerst ImageMagick - ein Befehlszeilenprogramm, um PDF in Bilder zu konvertieren - - um diese pdfs in jpg oder png umzuwandeln.

Allerdings liefert ImageMagick Bilder mit sehr niedriger Qualität und Ocropus erkennt kaum etwas. Ich würde gerne erfahren, welche die besten Parameter für den Umgang mit qualitativ minderwertigen PDFs sind, um OCR-Bilder mit möglichst guter Qualität zu liefern.

Ich habe diese Seite gefunden, weiß aber nicht, wo ich anfangen soll.

    
Skarab 31.08.2010, 20:36
quelle

3 Antworten

14

Sie können mehr über die detaillierten Einstellungen von ImageMagicks "Delegaten" (externe Programme, die IM verwendet, wie Ghostscript) erfahren, indem Sie

eingeben %Vor%

(Auf meinem System ist das eine Liste von 32 verschiedenen Befehlen.) Um zu sehen, welche Befehle zur Konvertierung in PNG verwendet werden, verwenden Sie Folgendes:

%Vor%

Ok, das war für Windows. Sie haben nicht gesagt, welches Betriebssystem Sie verwenden. [*] Wenn Sie Linux verwenden, versuchen Sie Folgendes:

%Vor%

Sie werden feststellen, dass IM PNG nur aus PS- oder EPS-Eingaben erzeugt. Wie erhält IM (E) PS von Ihrem PDF? Einfach:

%Vor%

Ah! Es benutzt Ghostscript um ein PDF zu erstellen = & gt; PS-Konvertierung, verwendet Ghostscript erneut, um ein PS = & gt; PNG-Konvertierung. Funktioniert, ist aber nicht der effizienteste Weg , wenn Sie wissen, dass Ghostscript PDF = & gt; PNG in eins gehen. Und schneller. Und in viel besserer Qualität.

Über IMs Handhabung der PDF-Konvertierung in Bilder über den Ghostscript-Delegierten sollten Sie in erster Linie zwei Dinge wissen:

  1. Wenn Sie keinen zusätzlichen Parameter angeben, gibt Ghostscript standardmäßig Bilder mit einer Auflösung von 72 dpi aus. Deshalb schlug Karls Antwort vor, -density 600 hinzuzufügen, was Ghostscript anweist, eine Auflösung von 600 dpi für seine Bildausgabe zu verwenden.
  2. Der Umweg von IM, Ghostscript zweimal aufzurufen, um zuerst PDF => PS und dann PS => PNG zu konvertieren, ist ein echter Fehler. Weil Sie nie gewinnen und hartnäckige Qualität im ersten Schritt behalten, aber sehr oft verlieren. Gründe dafür:
    • PDF kann mit Transparenz umgehen, was mit PostScript nicht möglich ist.
    • PDF kann TrueType-Schriften einbetten, was Ghostscript nicht kann. usw.pp. Konvertierung in Richtung PS => PDF ist nicht so kritisch ....)

Deshalb würde ich vorschlagen, dass Sie Ihre PDFs in einem Schritt mit Ghostscript direkt in PNG (oder JPEG) konvertieren. Und nutze die neueste Version 8.71 (bald veröffentlicht: 9.01) von Ghostscript! Hier sind Beispielbefehle:

%Vor%

(Dies ist die Befehlszeile für Windows. Verwenden Sie unter Linux gs anstelle von gswin32c.exe und \ anstelle von ^ .) Dieser Befehl erwartet ein output -Unterverzeichnis, in dem a gespeichert wird separate Datei für jede PDF-Seite. Um JPEGs von guter Qualität zu erstellen, versuchen Sie

%Vor%

(Linux-Befehlsversion) Diese direkte Konvertierung vermeidet das PostScript-Zwischenformat, das die Informationen Ihrer TrueType-Schriftart und des Transparenzobjekts verloren haben kann, die sich in der ursprünglichen PDF-Datei befanden.

[*] D'oh! Ich vermisste zuerst dein "linux" -Tag ...

    
Kurt Pfeifle 31.08.2010, 22:37
quelle
5

-density 600 oder so sollte Ihnen geben, was Sie brauchen.

    
Karl Bielefeldt 31.08.2010 21:28
quelle
0

Mindestens zwei weitere Tools, die Sie vielleicht in Betracht ziehen sollten:

  • pdfimages , das mit dem Paket poppler-utils geliefert wird, erleichtert das Extrahieren der Bilder aus einer PDF, ohne sie zu beeinträchtigen.
  • pdfsandwich , die Ihnen eine OCR-Datei geben kann, indem Sie einfach pdfsandwich inputfile.pdf ausführen. Möglicherweise müssen Sie die Optionen optimieren, um ein anständiges Ergebnis zu erhalten. Weitere Informationen finden Sie auf der offiziellen Seite .
Brian Z 08.10.2015 11:50
quelle