python entferne alles zwischen div class="kommentar ... any ... / div

8

Wie benutzt man Python 2.6, um alles inklusive <div class="comment"> ....remove all ....</div>

zu entfernen?

Ich habe es auf verschiedene Weise versucht, ohne Erfolg mit re

Danke

    
Michelle Jun Lee 15.04.2010, 23:50
quelle

6 Antworten

16

Dies kann einfach und zuverlässig mit einem HTML-Parser wie BeautifulSoup durchgeführt werden:

%Vor%

Sehen Sie sich diese Frage für Beispiele auf Warum HTML mit regulären Ausdrücken analysieren ist eine schlechte Idee .

    
Ayman Hourieh 16.04.2010 00:26
quelle
3

Mit lxml.html :

%Vor%     
Ian Bicking 16.04.2010 02:56
quelle
2

Sie können HTML nicht ordnungsgemäß mit regulären Ausdrücken analysieren. Verwenden Sie einen HTML-Parser wie lxml oder BeautifulSoup .

    
Ignacio Vazquez-Abrams 15.04.2010 23:56
quelle
0

Für den Datensatz ist es normalerweise eine schlechte Idee, XML mit regulären Ausdrücken zu verarbeiten. Trotzdem:

%Vor%     
David Schein 15.04.2010 23:58
quelle
0

nicht regex Weg

%Vor%

Ausgabe

%Vor%     
ghostdog74 16.04.2010 00:07
quelle
0

Verwenden Sie eine schöne Suppe und machen Sie so etwas, um all diese Elemente zu erhalten, und ersetzen Sie sie dann einfach in

%Vor%     
JiminyCricket 16.04.2010 00:43
quelle

Tags und Links