Ich suche nach einer Möglichkeit, regexp zu verwenden, um alle HTML-Tags aus einer Zeichenfolge zu entfernen.
Also, wenn ich <HTML><b><FONT color="red" size="3">Hello</FONT></b></HTML>
habe, möchte ich die hello
davon bekommen.
Ich weiß, dass es wahrscheinlich wie verschachtelte Tags aussehen wird, aber es ist nicht wirklich, denn alles, was ich hier tun möchte, ist etwas zwischen zwei <>
zu entfernen.
Ich benutze Matlab dafür, aber das Regexp ist genau das selbe, also kannst du mir helfen. Vielen Dank.
Es ist allgemein anerkannt, dass die Verwendung von Regexes zum Analysieren von allgemeinem HTML eine schlechte Form ist. Wenn Ihr HTML-Code viel komplizierter ist als das angegebene Beispiel, sollten Sie stattdessen einen XML-Parser verwenden.
Weitere Diskussion in dieser berühmten SO-Frage. RegEx stimmt offene Tags ab, mit Ausnahme von XHTML-eigenen Tags .
Wenn Sie den Inhalt richtig analysieren möchten, laden Sie xml_io_tools herunter und verwenden Sie
%Vor%Wenn Sie bei Regexen bleiben wollen, verwenden Sie die Antwort von ilya, aber mit einer der Regexes aus der verknüpften Antwort, z. B.
%Vor%