Wie kann ich den HTML-Parser mit Apache Tika in Java verwenden, um alle HTML-Tags zu extrahieren?

Question

Wie kann ich den HTML-Parser mit Apache Tika in Java verwenden, um alle HTML-Tags zu extrahieren?

7

Ich lade Tika-Core- und Tika-Parser-Bibliotheken herunter, aber ich konnte die Beispielcodes nicht finden, um HTML-Dokumente als String zu analysieren. Ich muss alle HTML-Tags der Quelle einer Webseite loswerden. Was kann ich tun? Wie programmiere ich das mit Apache Tika?

html java apache apache-tika

lkalay 25.03.2011, 07:47

quelle

2 Antworten

1

Sie können auch Tika AutoDetectParser jede Art von Dateien wie HTML analysieren. Hier ist ein einfaches Beispiel dafür:

%Vor%

UserNeD 12.08.2014 22:51

quelle

Tags und Links html java apache apache-tika

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Was ist der Unterschied zwischen C-Strukturen und Java-Klassen?

score 19 · Accepted Answer

Möchten Sie eine reine Textversion einer HTML-Datei? Wenn dies der Fall ist, brauchen Sie nur Folgendes:

%Vor%

Wenn der BodyContentHandler ohne Konstruktorargumente oder mit einer Zeichenbeschränkung erstellt wird, erfasst er (nur) den Text des HTML-Texts und gibt ihn an Sie zurück.