Wie kann ich den HTML-Parser mit Apache Tika in Java verwenden, um alle HTML-Tags zu extrahieren?

7

Ich lade Tika-Core- und Tika-Parser-Bibliotheken herunter, aber ich konnte die Beispielcodes nicht finden, um HTML-Dokumente als String zu analysieren. Ich muss alle HTML-Tags der Quelle einer Webseite loswerden. Was kann ich tun? Wie programmiere ich das mit Apache Tika?

    
lkalay 25.03.2011, 07:47
quelle

2 Antworten

19

Möchten Sie eine reine Textversion einer HTML-Datei? Wenn dies der Fall ist, brauchen Sie nur Folgendes:

%Vor%

Wenn der BodyContentHandler ohne Konstruktorargumente oder mit einer Zeichenbeschränkung erstellt wird, erfasst er (nur) den Text des HTML-Texts und gibt ihn an Sie zurück.

    
Gagravarr 02.04.2011, 10:15
quelle
1

Sie können auch Tika AutoDetectParser jede Art von Dateien wie HTML analysieren.    Hier ist ein einfaches Beispiel dafür:

%Vor%     
UserNeD 12.08.2014 22:51
quelle

Tags und Links