Wie lese ich einen Text von einer Webseite mit Java?

8

Ich möchte den Text von einer Webseite lesen. Ich möchte den HTML-Code der Webseite nicht erhalten. Ich habe diesen Code gefunden:

%Vor%

aber dieser Code gibt mir den HTML-Code der Webseite. Ich möchte den ganzen Text auf dieser Seite finden. Wie kann ich das mit Java machen?

    
Rigor Mortis 22.03.2012, 15:48
quelle

4 Antworten

13

Vielleicht möchten Sie jsoup für Folgendes sehen:

%Vor%

Dieses Beispiel ist ein Auszug von einem auf ihrer Site.

    
Fabian Barney 22.03.2012, 15:59
quelle
4

Verwenden Sie JSoup .

Sie können den Inhalt mit CSS-Stilselektoren analysieren.

In diesem Beispiel können Sie versuchen

%Vor%     
Nitzan Volman 22.03.2012 15:59
quelle
0

Sie müssten den Inhalt, den Sie mit Ihrem aktuellen Code erhalten haben, dann analysieren und nach den Tags suchen, die den gewünschten Text enthalten. Ein Sax Parser eignet sich gut für diesen Job.

Wenn es sich nicht um einen bestimmten Text handelt, entfernen Sie einfach alle Tags, so dass nur noch der Text übrig bleibt. Ich denke, du könntest regexp dafür benutzen.

    
Paaske 22.03.2012 15:51
quelle
0

Sie können auch HtmlCleaner jar verwenden. Unten ist der Code.

%Vor%     
Prabuddha 07.05.2013 08:59
quelle

Tags und Links