Konvertiere hOCR in HTML-Tabelle

Question

Konvertiere hOCR in HTML-Tabelle

9

Ich bin auf der Suche nach einem Tool oder einer Idee, die in Python implementiert werden soll, um die hocr-Datei (generiert von tesseract in pro Anwendung) in eine HTML-Tabelle zu konvertieren. Die Idee besteht darin, die Textinformationen in der hOCR-Datei (im bbox-Attribut enthalten) zu verwenden, um basierend auf dem angegebenen Speicherort eine Tabelle zu erstellen. Ich gebe ein Beispiel, erklärt die obige Idee:

Ich habe dieses Bild von SlideShare.net als Eingabe für meine Anwendung, die tesseract verwendet und ich habe die untenstehende hOCR / xml-Datei als Ausgabe.

hOCR-Datei:

%Vor%

Was ich brauche, ist die hOCR-Datei in HTML-Tabelle basierend auf dem Speicherort der nächsten zu konvertieren. Die vorgesehene Tabelle sollte ungefähr so aussehen wie diese Tabelle .

Die Größe und der Ort der Tabellenzellen spiegeln die Informationen in der hOCR-Datei wider.

Bildquelle: slideshare.net

python html tesseract html-table hocr

azri.dev 24.06.2015, 14:45

quelle

2 Antworten

Tags und Links python html tesseract html-table hocr

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Gewährleistet C ++ 11 die Speicherreihenfolge zwischen einem Freigabezaun und einer Consume-Operation?

score 1 · Answer 1

Überprüfen Sie dieses Dokument . Ich glaube, es beschreibt viel (oder alles) von dem, was Sie brauchen. Von der Einleitung:

Dieses Dokument beschreibt eine Darstellung verschiedener Aspekte von OCR Ausgabe in einem XML-ähnlichen Format. Das heißt, wir definieren eine Menge von Tags enthält Text und andere Tags zusammen mit deren Attributen Stichworte. Da der Inhalt, den wir darstellen, formatiert ist Wir verwenden jedoch kein neues XML für die Darstellung; betten Sie stattdessen die Darstellung in XHTML (oder HTML) weil XHTML- und XHTML-Verarbeitung bereits viele Aspekte der OCR definieren Ausgabedarstellung, die sonst zusätzliche, separate benötigen würde und Ad-hoc-Definitionen.

Das XML kann auch in HTML mit XSLT konvertiert werden . Tatsächlich gibt es ein Projekt, das genau das beabsichtigt .

Auch dieses Projekt (hocr-tools) kann hilfreich sein.

Beachten Sie, dass die häufig gestellten Fragen von Tesseract Folgendes erwähnen:

Mit der Konfigurationsdatei 'hocr' erzeugt tesseract eine xhtml-Ausgabe konform mit der Hcr-Spezifikation

score 0 · Answer 2

Hier ist eine Idee, wie man eine Hocr-Datei mit einigen existierenden Werkzeugen in eine Tabelle umwandelt (es könnte auch zu spät für die ursprüngliche Frage sein):

Nimm die hocr-Datei zusammen mit der Image-Datei und erstelle eine PDF mit hocr-pdf aus dem hotr-tools Repo, siehe Ссылка
Verwenden Sie tabula Ссылка , um die Tabellendaten aus der PDF
Konvertieren Sie die CSV-Daten in HTML-Tabelle (es sollte viele Werkzeuge für diese Aufgabe geben)

Der erste Schritt wird nur benötigt, weil Tabula nur mit PDFs arbeitet. Der zweite Schritt ist IMO die Hauptaufgabe, Tabellendaten aus visuellen Informationen zu extrahieren, und es könnte auch interessant sein, die Details dort zu überprüfen, wenn Sie einige Ideen über algorithmische Ansätze erhalten möchten.