Beautifulsoup 4: Entfernen Sie das Kommentar-Tag und seinen Inhalt

Question

8

Die Seite, die ich verschrotte, enthält diese HTML-Codes. Wie entferne ich das Kommentar-Tag  zusammen mit seinem Inhalt mit bs4 ?

%Vor%

python html web-scraping beautifulsoup html-parsing

Flint 25.04.2014, 17:34

quelle

2 Antworten

1

Normalerweise ist das Ändern des bs4-Syntaxbaums unnötig. Sie können einfach den Text des Divs holen, wenn Sie das wollten:

%Vor%

bs4 trennt den Kommentar. Wenn Sie jedoch den Syntaxbaum wirklich ändern müssen:

%Vor%

roippi 25.04.2014 17:42

quelle

score 14 · Accepted Answer

Sie können extract() verwenden (die Lösung basiert auf diese Antwort ):

PageElement.extract () entfernt ein Tag oder eine Zeichenfolge aus dem Baum. Es Gibt das Tag oder die Zeichenfolge zurück, die extrahiert wurde.

%Vor%

Als Ergebnis erhalten Sie Ihre div ohne Kommentare:

%Vor%