Ich möchte den Text von einer Webseite lesen. Ich möchte den HTML-Code der Webseite nicht erhalten. Ich habe diesen Code gefunden:
%Vor%aber dieser Code gibt mir den HTML-Code der Webseite. Ich möchte den ganzen Text auf dieser Seite finden. Wie kann ich das mit Java machen?
Vielleicht möchten Sie jsoup für Folgendes sehen:
%Vor%Dieses Beispiel ist ein Auszug von einem auf ihrer Site.
Verwenden Sie JSoup .
Sie können den Inhalt mit CSS-Stilselektoren analysieren.
In diesem Beispiel können Sie versuchen
%Vor%Sie müssten den Inhalt, den Sie mit Ihrem aktuellen Code erhalten haben, dann analysieren und nach den Tags suchen, die den gewünschten Text enthalten. Ein Sax Parser eignet sich gut für diesen Job.
Wenn es sich nicht um einen bestimmten Text handelt, entfernen Sie einfach alle Tags, so dass nur noch der Text übrig bleibt. Ich denke, du könntest regexp dafür benutzen.
Tags und Links java