Beautifulsoup 4: Entfernen Sie das Kommentar-Tag und seinen Inhalt

8

Die Seite, die ich verschrotte, enthält diese HTML-Codes. Wie entferne ich das Kommentar-Tag <!-- --> zusammen mit seinem Inhalt mit bs4 ?

%Vor%     
Flint 25.04.2014, 17:34
quelle

2 Antworten

14

Sie können extract() verwenden (die Lösung basiert auf diese Antwort ):

  

PageElement.extract () entfernt ein Tag oder eine Zeichenfolge aus dem Baum. Es   Gibt das Tag oder die Zeichenfolge zurück, die extrahiert wurde.

%Vor%

Als Ergebnis erhalten Sie Ihre div ohne Kommentare:

%Vor%     
alecxe 25.04.2014, 17:43
quelle
1

Normalerweise ist das Ändern des bs4-Syntaxbaums unnötig. Sie können einfach den Text des Divs holen, wenn Sie das wollten:

%Vor%

bs4 trennt den Kommentar. Wenn Sie jedoch den Syntaxbaum wirklich ändern müssen:

%Vor%     
roippi 25.04.2014 17:42
quelle