Ich lade Tika-Core- und Tika-Parser-Bibliotheken herunter, aber ich konnte die Beispielcodes nicht finden, um HTML-Dokumente als String zu analysieren. Ich muss alle HTML-Tags der Quelle einer Webseite loswerden. Was kann ich tun? Wie programmiere ich das mit Apache Tika?
Möchten Sie eine reine Textversion einer HTML-Datei? Wenn dies der Fall ist, brauchen Sie nur Folgendes:
%Vor%Wenn der BodyContentHandler ohne Konstruktorargumente oder mit einer Zeichenbeschränkung erstellt wird, erfasst er (nur) den Text des HTML-Texts und gibt ihn an Sie zurück.
Tags und Links html java apache apache-tika