tesseract, Seitenzahl 1

Tesseract ist eine OCR-Engine (Optical Character Recognition), die ursprünglich von HP Labs entwickelt wurde und nun als Open-Source-Bibliothek mit von Google gesponserter Entwicklung verfügbar ist.

Antworten

Training Tesseract 3, um Zahlen aus realen Bildern von Gaszählern zu erkennen

Ich versuche Tesseract zu trainieren, um Zahlen aus realen Bildern von Gaszählern zu erkennen. Die Bilder, die ich für das Training verwende, werden mit einer Kamera gemacht. Aus diesem Grund gibt es viele Probleme: schlechte Bilderauflösung,...

18.07.2011, 13:21

Antworten

Stärke des Wörterbuchs in Tesseract 3

Wie kann ich die Stärke des Wörterbuchs in Tesseract 3 erhöhen / verringern? In der FAQ heißt es, ich muss den Wert von "NON_WERD" ändern und "GARBAGE_STRING", aber sie existieren nicht in Tesseract 3.

20.01.2012, 11:34

Antworten

malloc-Fehler bei der Verwendung von Tesseract mit aktivierter OpenCL-Option

Ich habe Tesseract 3.04.00 mit der OpenCL-Option kompiliert. Beim Versuch, mit GetUTF8Text () Text aus einem Bild zu extrahieren, gibt es einen malloc-Fehler, vermutlich ein Speicherleck. Ich habe einen Patch für einen Speicherleckfehler gefu...

10.04.2015, 09:54

Antworten

Extrahieren von Absatzunterbrechungen aus OCR-Text?

Ich versuche, die Absätze und Einrückungen aus der Ausgabe von OCR-Bildtext wie folgt neu zu erstellen: Eingabe (Stellen Sie sich vor, dass dies ein Bild ist, das nicht eingegeben wurde): Ausgabe (mit ein paar Fehlern): Wie...

08.05.2011, 04:20

Antworten

Konvertiere hOCR in HTML-Tabelle

Ich bin auf der Suche nach einem Tool oder einer Idee, die in Python implementiert werden soll, um die hocr-Datei (generiert von tesseract in pro Anwendung) in eine HTML-Tabelle zu konvertieren. Die Idee besteht darin, die Textinformationen in d...

24.06.2015, 14:45

Antworten

Tesseract-Schriftart für OCR festlegen

Ich würde gerne tesseract für die Erkennung von Seriennummern verwenden, wo ich nur einzelne Zeichen, kein Wort, kein Wörterbuch erkennen möchte. Daher würde ich gerne einen der bereits erlernten Tesseract-Schriften für die Seriennummer verwende...

14.07.2015, 06:45

Antworten

configure: Fehler: leptonica library fehlt (beim Erstellen von tesseract-ocr-3.01 auf MinGW)

Beim Ausführen von configure schlägt es mit fehl %Vor% Aber ich habe Leptonica 1.69 gebaut (heruntergeladene Quelle und lief ./configure && make install ) Bearbeiten Ich denke, configure: error: leptonica library missing...

19.10.2012, 09:28

Antworten

Installation von pytesser

Ich bin neu bei Python und möchte die pyteser OCR-Bibliothek installieren und verwenden. Alle anderen Module, die ich installiert habe, habe ich easy_install verwendet, was gut funktioniert hat. Aber pytesser ist das erste, das ich mit der ZIP-D...

22.03.2013, 09:45

Antworten

Abrufen der Bounding Box der erkannten Wörter mit Python-Tesseract

Ich verwende python-tesseract, um Wörter aus einem Bild zu extrahieren. Dies ist ein Python-Wrapper für Tesseract, der ein OCR-Code ist. Ich verwende den folgenden Code, um die Wörter zu erhalten: %Vor% Dies gibt nur die Wörter und nicht...

30.12.2013, 00:15

Antwort

Android OCR tesseract: Verwendet Daten von Pixa-Objekten, um Begrenzungsrahmen anzuzeigen

Ich spiele gerade mit OCR auf Android. Deshalb habe ich eine kleine App mit einer Kameravorschau geschrieben und füttere nun tesearact tools (tess-two) Bilder von meiner onPreviewFrame Methode. Jetzt möchte ich die umgrenzenden Rektellen aus der...

14.07.2012, 12:51