Jsoup - Howto sauber html durch entkommen nicht das unerwünschte html löschen?

8

Gibt es eine Möglichkeit, jsoup zu erhalten, um eine Zeichenfolge mit HTML zu bereinigen, indem Sie die unerwünschte HTML-Datei umgehen, anstatt sie vollständig zu entfernen? Mein Beispiel:

%Vor%

Dies ergibt eine "saubere" Zeichenfolge von:

%Vor%

Was ich will, ist die "saubere" Zeichenfolge:

%Vor%     
DM_Blunders 13.10.2011, 15:36
quelle

1 Antwort

3

Unter der Annahme, dass anstelle von HTML-Dokumenten String-Dateien analysiert werden (wie in Ihrer Frage), funktioniert diese Methode:

%Vor%

Sie könnten den Tag "b" zu einem Argument machen, um eine Liste von Tags zu übergeben, die Sie entfernen möchten.

Der zugehörige bestandene JUnit-Test:

%Vor%

Beachten Sie, dass ich eine Zeilenrückgabe "\ n" vor Ihrem "a" -Tag in den "erwarteten" String meines Tests eingefügt habe, da JSoup die Seite formatiert.

    
benmac 21.01.2012 21:46
quelle

Tags und Links