Die gesamte Dokumentation, die ich finden kann, scheint darauf hinzudeuten, dass ich nur den gesamten Inhalt der Datei extrahieren kann. Aber ich muss die Seiten einzeln extrahieren. Muss ich dafür meinen eigenen Parser schreiben? Gibt es eine offensichtliche Methode, die ich vermisse?
Tatsächlich behandelt Tika Seiten (zumindest im PDF-Format), indem er die Elemente <div><p>
vor dem Start der Seite und </p></div>
nach dem Ende der Seite sendet. Sie können die Anzahl der Seiten in Ihrem Handler einfach einstellen (indem Sie Seiten nur mit <p>
zählen):
Wenn Sie dies mit pdf tun, können Sie auf das Problem stoßen, wenn der Parser keine Textzeilen in der richtigen Reihenfolge sendet - siehe Extrahieren von Text aus PDF-Dateien mit Apache Tika 0.9 (und PDFBox unter der Haube) zum Umgang damit.
Sie müssen mit den zugrunde liegenden Bibliotheken arbeiten - Tika tut nichts auf Seitenebene.
Für PDF-Dateien sollte PDFBox Ihnen etwas Seitenmaterial geben können. Für Word, HWPF und XWPF von Apache POI nicht wirklich Sachen auf Seitenebene - die Seitenumbrüche werden nicht in der Datei gespeichert, sondern müssen im Flug basierend auf dem Text + Schriftarten + Seitengröße berechnet werden ...
Tags und Links text apache-tika