Ich habe mehrere PDFs mit niedriger Qualität. Ich möchte OCR verwenden - genauer gesagt, Ocopus , um Text von ihnen zu erhalten. Um zu verwenden, verwende ich zuerst ImageMagick - ein Befehlszeilenprogramm, um PDF in Bilder zu konvertieren - - um diese pdfs in jpg oder png umzuwandeln.
Allerdings liefert ImageMagick Bilder mit sehr niedriger Qualität und Ocropus erkennt kaum etwas. Ich würde gerne erfahren, welche die besten Parameter für den Umgang mit qualitativ minderwertigen PDFs sind, um OCR-Bilder mit möglichst guter Qualität zu liefern.
Ich habe diese Seite gefunden, weiß aber nicht, wo ich anfangen soll.
Sie können mehr über die detaillierten Einstellungen von ImageMagicks "Delegaten" (externe Programme, die IM verwendet, wie Ghostscript) erfahren, indem Sie
eingeben %Vor%(Auf meinem System ist das eine Liste von 32 verschiedenen Befehlen.) Um zu sehen, welche Befehle zur Konvertierung in PNG verwendet werden, verwenden Sie Folgendes:
%Vor%Ok, das war für Windows. Sie haben nicht gesagt, welches Betriebssystem Sie verwenden. [*] Wenn Sie Linux verwenden, versuchen Sie Folgendes:
%Vor%Sie werden feststellen, dass IM PNG nur aus PS- oder EPS-Eingaben erzeugt. Wie erhält IM (E) PS von Ihrem PDF? Einfach:
%Vor%Ah! Es benutzt Ghostscript um ein PDF zu erstellen = & gt; PS-Konvertierung, verwendet Ghostscript erneut, um ein PS = & gt; PNG-Konvertierung. Funktioniert, ist aber nicht der effizienteste Weg , wenn Sie wissen, dass Ghostscript PDF = & gt; PNG in eins gehen. Und schneller. Und in viel besserer Qualität.
Über IMs Handhabung der PDF-Konvertierung in Bilder über den Ghostscript-Delegierten sollten Sie in erster Linie zwei Dinge wissen:
-density 600
hinzuzufügen, was Ghostscript anweist, eine Auflösung von 600 dpi für seine Bildausgabe zu verwenden. PDF => PS
und dann PS => PNG
zu konvertieren, ist ein echter Fehler. Weil Sie nie gewinnen und hartnäckige Qualität im ersten Schritt behalten, aber sehr oft verlieren. Gründe dafür:
PS => PDF
ist nicht so kritisch ....) Deshalb würde ich vorschlagen, dass Sie Ihre PDFs in einem Schritt mit Ghostscript direkt in PNG (oder JPEG) konvertieren. Und nutze die neueste Version 8.71 (bald veröffentlicht: 9.01) von Ghostscript! Hier sind Beispielbefehle:
%Vor% (Dies ist die Befehlszeile für Windows. Verwenden Sie unter Linux gs
anstelle von gswin32c.exe
und \
anstelle von ^
.) Dieser Befehl erwartet ein output
-Unterverzeichnis, in dem a gespeichert wird separate Datei für jede PDF-Seite. Um JPEGs von guter Qualität zu erstellen, versuchen Sie
(Linux-Befehlsversion) Diese direkte Konvertierung vermeidet das PostScript-Zwischenformat, das die Informationen Ihrer TrueType-Schriftart und des Transparenzobjekts verloren haben kann, die sich in der ursprünglichen PDF-Datei befanden.
[*] D'oh! Ich vermisste zuerst dein "linux" -Tag ...
Mindestens zwei weitere Tools, die Sie vielleicht in Betracht ziehen sollten:
pdfimages
, das mit dem Paket poppler-utils
geliefert wird, erleichtert das Extrahieren der Bilder aus einer PDF, ohne sie zu beeinträchtigen. pdfsandwich
, die Ihnen eine OCR-Datei geben kann, indem Sie einfach pdfsandwich inputfile.pdf
ausführen. Möglicherweise müssen Sie die Optionen optimieren, um ein anständiges Ergebnis zu erhalten. Weitere Informationen finden Sie auf der offiziellen Seite . Tags und Links pdf linux image-processing imagemagick ghostscript