Tesseract-Schriftart für OCR festlegen

10

Ich würde gerne tesseract für die Erkennung von Seriennummern verwenden, wo ich nur einzelne Zeichen, kein Wort, kein Wörterbuch erkennen möchte. Daher würde ich gerne einen der bereits erlernten Tesseract-Schriften für die Seriennummer verwenden, um bessere Erkennungsergebnisse zu erzielen.

Dies sind die trainierten Tesseract-Schriftarten:

%Vor%

Da die trainierten Font-Typen auch unterschiedliche Font-Desin-Styles haben, gibt es Probleme, beispielsweise die Zeichen "Z" und "2" zu unterscheiden. Times New Roman hat ein abgerundetes Design, während Arial nur mehr gerade Linien hat.

Meine Erfahrung ist, dass tesseract Probleme hat, das "Z" und das "2" aufgrund der veränderten Ähnlichkeit der anderen Schriftdesigns zu unterscheiden.

Daher kann ich bessere Erkennungsergebnisse erzielen, wenn nur eine Schriftart (zB Arial) für die Zeichenerkennung mit tesseract verwendet wird.

Frage:

Gibt es eine Möglichkeit, den Font-Typ in Tesseract anzugeben?

Ähnliches, aber älteres Thema (Oktober 2012) Link

    
Mr.Sheep 14.07.2015, 06:45
quelle

0 Antworten

Tags und Links