Extrahieren von Absatzunterbrechungen aus OCR-Text?

9

Ich versuche, die Absätze und Einrückungen aus der Ausgabe von OCR-Bildtext wie folgt neu zu erstellen:

Eingabe (Stellen Sie sich vor, dass dies ein Bild ist, das nicht eingegeben wurde):

Ausgabe (mit ein paar Fehlern):

Wie Sie sehen, werden keine Absätze oder Einkerbungen beibehalten.

Mit Python habe ich einen solchen Ansatz versucht, aber er funktioniert nicht (scheitert zu oft):

Code :

%Vor%

Hat jemand irgendwelche Vorschläge, wie ich dieses Layout neu erstellen könnte? Ich arbeite mit alten Büchern, also hoffte ich, sie mit LaTeX neu zu setzen, da es ziemlich einfach ist, dafür ein Python-Skript zu erstellen.

Danke!

    
Blender 08.05.2011, 04:20
quelle

2 Antworten

3

Sie können das Bild in mehrere Absätze aufteilen, indem Sie die Entropie von jedem 5-10 Pixel horizontalen Schnitt.

Dies bedeutet, dass Sie das Bild in eine Reihe von horizontalen Streifen teilen, die jeweils 5-10 Pixel groß sind. Wenn ein Streifen nicht "beschäftigt" ist, können Sie davon ausgehen, dass dort kein Text vorhanden ist. Sie können dies verwenden, um Absätze zu isolieren. Jetzt nehmen Sie jeden Absatz einzeln und füttern ihn in Ihre OCR.

    
Nick ODell 08.05.2011, 04:31
quelle
0

Sie könnten versuchen zu sagen, ob das erste Wort in einer Zeile leicht auf die vorherige Zeile hätte passen können, um eine absichtliche neue Zeile anzuzeigen, anstatt nach kurzen Zeilen zu suchen. Abgesehen davon (und ich achte besonders auf Interpunktion, wie du es in deinem Beispiel tust) würde ich denken, dass die einzige andere Option darin besteht, zu den Originalbildern zurückzukehren.

    
Mu Mind 08.05.2011 05:00
quelle

Tags und Links