Ich bin auf der Suche nach einem Tool oder einer Idee, die in Python implementiert werden soll, um die hocr-Datei (generiert von tesseract in pro Anwendung) in eine HTML-Tabelle zu konvertieren. Die Idee besteht darin, die Textinformationen in der hOCR-Datei (im bbox-Attribut enthalten) zu verwenden, um basierend auf dem angegebenen Speicherort eine Tabelle zu erstellen. Ich gebe ein Beispiel, erklärt die obige Idee:
Ich habe dieses Bild
hOCR-Datei:
%Vor%Was ich brauche, ist die hOCR-Datei in HTML-Tabelle basierend auf dem Speicherort der nächsten zu konvertieren. Die vorgesehene Tabelle sollte ungefähr so aussehen wie diese Tabelle .
Die Größe und der Ort der Tabellenzellen spiegeln die Informationen in der hOCR-Datei wider.
Bildquelle: slideshare.net
Überprüfen Sie dieses Dokument . Ich glaube, es beschreibt viel (oder alles) von dem, was Sie brauchen. Von der Einleitung:
Dieses Dokument beschreibt eine Darstellung verschiedener Aspekte von OCR Ausgabe in einem XML-ähnlichen Format. Das heißt, wir definieren eine Menge von Tags enthält Text und andere Tags zusammen mit deren Attributen Stichworte. Da der Inhalt, den wir darstellen, formatiert ist Wir verwenden jedoch kein neues XML für die Darstellung; betten Sie stattdessen die Darstellung in XHTML (oder HTML) weil XHTML- und XHTML-Verarbeitung bereits viele Aspekte der OCR definieren Ausgabedarstellung, die sonst zusätzliche, separate benötigen würde und Ad-hoc-Definitionen.
Das XML kann auch in HTML mit XSLT konvertiert werden . Tatsächlich gibt es ein Projekt, das genau das beabsichtigt .
Auch dieses Projekt (hocr-tools) kann hilfreich sein.
Beachten Sie, dass die häufig gestellten Fragen von Tesseract Folgendes erwähnen:
Mit der Konfigurationsdatei 'hocr' erzeugt tesseract eine xhtml-Ausgabe konform mit der Hcr-Spezifikation
Hier ist eine Idee, wie man eine Hocr-Datei mit einigen existierenden Werkzeugen in eine Tabelle umwandelt (es könnte auch zu spät für die ursprüngliche Frage sein):
hocr-pdf
aus dem hotr-tools Repo, siehe Ссылка
Der erste Schritt wird nur benötigt, weil Tabula nur mit PDFs arbeitet. Der zweite Schritt ist IMO die Hauptaufgabe, Tabellendaten aus visuellen Informationen zu extrahieren, und es könnte auch interessant sein, die Details dort zu überprüfen, wenn Sie einige Ideen über algorithmische Ansätze erhalten möchten.
Tags und Links python html tesseract html-table hocr