Wenn Ihnen Python nichts ausmacht (obwohl Regexps ziemlich generisch sind), können Sie sich etwas von Djangos strip_tags Filter .
Hier reproduziert für die Vollständigkeit -
%Vor%BEARBEITEN: Wenn Sie diese oder eine andere Regexp-Lösung verwenden, beachten Sie bitte, dass sie sorgfältig gestalteten HTML-Code (siehe Kommentar) sowie HTML-Kommentare durchlässt und daher nicht mit nicht vertrauenswürdigen Eingaben verwendet werden sollte. Erwägen Sie stattdessen, einige der Antworten beautifulsoup, html5lib oder lxml für nicht vertrauenswürdige Eingaben zu verwenden.
Sieht so aus, als wolltest du HTMLParser
. ( html.parser
in Python 3.)
Sams Antwort sollte, soweit ich das beurteilen kann, ziemlich genau das tun, was ich wollte, aber es kann sich lohnen, dafür zu sorgen, dass irgendwelche übrig gebliebenen & lt; & gt; Zeichen werden durch & amp; lt ersetzt; und & amp; gt; bzw. um Missbrauch / ungültiges HTML zu verhindern.
Dieser Ansatz hat den Vorteil, dass er unglaublich fehlerhafte HTML-Referenzen / -Tags akzeptieren kann. BeautifulSoup behandelt auch schlecht formatierte Tags ziemlich gut, aber html5lib, sgmllib und htmllib können an ungültigem Code ersticken, manche mehr als andere, wenn ich mich richtig erinnere.
Der folgende Code validiert & amp; HTML-Verweise:
%Vor%Verwenden Sie das webob.exc-Modul:
%Vor%Und dann benutze es:
%Vor%Tags und Links python