apache-tika, Seitenzahl 1

Das Apache Tika ™ Toolkit erkennt und extrahiert Metadaten und strukturierten Textinhalt aus verschiedenen Dokumenten mit vorhandenen Parser-Bibliotheken.

Antwort

Font-Problem auf dem Ubuntu-Rechner beim Parsen von PDF-Dateien

Ich habe eine Anwendung auf meinem Ubuntu 14.04.x-Rechner. Diese Anwendung führt Text-Mining für PDF-Dateien durch. Ich vermute, dass es Apache Tika usw. verwendet ... Das Problem ist, dass ich während des Leseprozesses folgende Warnung bekom...

10.09.2015, 18:24

Antworten

Wie bekomme ich die Dateiendung vom Inhaltstyp?

Ich verwende Apache Tika, und ich habe Dateien (ohne Erweiterung) eines bestimmten Inhaltstyps, die umbenannt werden müssen, um eine Erweiterung zu haben, die den Inhaltstyp widerspiegelt. Irgendeine Idee, wenn es etwas gibt, das ich verwende...

04.04.2011, 16:48

Antworten

Ist es möglich, mit Apache Tika Text für Seite für Word / PDF-Dateien zu extrahieren?

Die gesamte Dokumentation, die ich finden kann, scheint darauf hinzudeuten, dass ich nur den gesamten Inhalt der Datei extrahieren kann. Aber ich muss die Seiten einzeln extrahieren. Muss ich dafür meinen eigenen Parser schreiben? Gibt es eine o...

28.04.2011, 20:53

Antworten

Wie kann ich den HTML-Parser mit Apache Tika in Java verwenden, um alle HTML-Tags zu extrahieren?

Ich lade Tika-Core- und Tika-Parser-Bibliotheken herunter, aber ich konnte die Beispielcodes nicht finden, um HTML-Dokumente als String zu analysieren. Ich muss alle HTML-Tags der Quelle einer Webseite loswerden. Was kann ich tun? Wie programmie...

25.03.2011, 07:47