Konvertiere hOCR in HTML-Tabelle

9

Ich bin auf der Suche nach einem Tool oder einer Idee, die in Python implementiert werden soll, um die hocr-Datei (generiert von tesseract in pro Anwendung) in eine HTML-Tabelle zu konvertieren. Die Idee besteht darin, die Textinformationen in der hOCR-Datei (im bbox-Attribut enthalten) zu verwenden, um basierend auf dem angegebenen Speicherort eine Tabelle zu erstellen. Ich gebe ein Beispiel, erklärt die obige Idee:

Ich habe dieses Bild von SlideShare.net als Eingabe für meine Anwendung, die tesseract verwendet und ich habe die untenstehende hOCR / xml-Datei als Ausgabe.

hOCR-Datei:

%Vor%

Was ich brauche, ist die hOCR-Datei in HTML-Tabelle basierend auf dem Speicherort der nächsten zu konvertieren. Die vorgesehene Tabelle sollte ungefähr so ​​aussehen wie diese Tabelle .

Die Größe und der Ort der Tabellenzellen spiegeln die Informationen in der hOCR-Datei wider.

Bildquelle: slideshare.net

    
azri.dev 24.06.2015, 14:45
quelle

2 Antworten

1

Überprüfen Sie dieses Dokument . Ich glaube, es beschreibt viel (oder alles) von dem, was Sie brauchen. Von der Einleitung:

  

Dieses Dokument beschreibt eine Darstellung verschiedener Aspekte von OCR   Ausgabe in einem XML-ähnlichen Format. Das heißt, wir definieren eine Menge von Tags   enthält Text und andere Tags zusammen mit deren Attributen   Stichworte. Da der Inhalt, den wir darstellen, formatiert ist   Wir verwenden jedoch kein neues XML für die   Darstellung; betten Sie stattdessen die Darstellung in XHTML (oder HTML)   weil XHTML- und XHTML-Verarbeitung bereits viele Aspekte der OCR definieren   Ausgabedarstellung, die sonst zusätzliche, separate benötigen würde   und Ad-hoc-Definitionen.

Das XML kann auch in HTML mit XSLT konvertiert werden . Tatsächlich gibt es ein Projekt, das genau das beabsichtigt .

Auch dieses Projekt (hocr-tools) kann hilfreich sein.

Beachten Sie, dass die häufig gestellten Fragen von Tesseract Folgendes erwähnen:

  

Mit der Konfigurationsdatei 'hocr' erzeugt tesseract eine xhtml-Ausgabe   konform mit der Hcr-Spezifikation

    
jcoppens 24.06.2015 15:48
quelle
0

Hier ist eine Idee, wie man eine Hocr-Datei mit einigen existierenden Werkzeugen in eine Tabelle umwandelt (es könnte auch zu spät für die ursprüngliche Frage sein):

  1. Nimm die hocr-Datei zusammen mit der Image-Datei und erstelle eine PDF mit hocr-pdf aus dem hotr-tools Repo, siehe Ссылка
  2. Verwenden Sie tabula Ссылка , um die Tabellendaten aus der PDF
  3. zu extrahieren
  4. Konvertieren Sie die CSV-Daten in HTML-Tabelle (es sollte viele Werkzeuge für diese Aufgabe geben)

Der erste Schritt wird nur benötigt, weil Tabula nur mit PDFs arbeitet. Der zweite Schritt ist IMO die Hauptaufgabe, Tabellendaten aus visuellen Informationen zu extrahieren, und es könnte auch interessant sein, die Details dort zu überprüfen, wenn Sie einige Ideen über algorithmische Ansätze erhalten möchten.

    
zuphilip 06.03.2017 18:18
quelle