Ist es möglich, mit Apache Tika Text für Seite für Word / PDF-Dateien zu extrahieren?

Question

Ist es möglich, mit Apache Tika Text für Seite für Word / PDF-Dateien zu extrahieren?

8

Die gesamte Dokumentation, die ich finden kann, scheint darauf hinzudeuten, dass ich nur den gesamten Inhalt der Datei extrahieren kann. Aber ich muss die Seiten einzeln extrahieren. Muss ich dafür meinen eigenen Parser schreiben? Gibt es eine offensichtliche Methode, die ich vermisse?

text apache-tika

Asif Sheikh 28.04.2011, 20:53

quelle

3 Antworten

5

Sie müssen mit den zugrunde liegenden Bibliotheken arbeiten - Tika tut nichts auf Seitenebene.

Für PDF-Dateien sollte PDFBox Ihnen etwas Seitenmaterial geben können. Für Word, HWPF und XWPF von Apache POI nicht wirklich Sachen auf Seitenebene - die Seitenumbrüche werden nicht in der Datei gespeichert, sondern müssen im Flug basierend auf dem Text + Schriftarten + Seitengröße berechnet werden ...

Gagravarr 29.04.2011 01:58

quelle

5

Sie können die Anzahl der Seiten in einem PDF mit den Metadaten % des Objekts% co_de wie im Folgenden:

%Vor%

hd1 24.07.2013 21:22

quelle

Tags und Links text apache-tika

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Android: Dateidownload im Hintergrund

score 4 · Accepted Answer

Tatsächlich behandelt Tika Seiten (zumindest im PDF-Format), indem er die Elemente <div><p> vor dem Start der Seite und </p></div> nach dem Ende der Seite sendet. Sie können die Anzahl der Seiten in Ihrem Handler einfach einstellen (indem Sie Seiten nur mit <p> zählen):

%Vor%

Wenn Sie dies mit pdf tun, können Sie auf das Problem stoßen, wenn der Parser keine Textzeilen in der richtigen Reihenfolge sendet - siehe Extrahieren von Text aus PDF-Dateien mit Apache Tika 0.9 (und PDFBox unter der Haube) zum Umgang damit.