Beim Versuch, den Titel einer HTML-Seite zu extrahieren, habe ich immer die folgende Regex verwendet:
%Vor%Dies wird alles zwischen den Tags in einem Dokument extrahieren und die Tags selbst ignorieren. Wenn Sie jedoch versuchen, diese Regex in Python zu verwenden, löst sie die folgende Ausnahme aus:
%Vor%Der Code, den ich verwende, ist:
%Vor%Wenn ich ein paar minimale Anpassungen mache, funktioniert es:
%Vor%Dies berücksichtigt jedoch nicht mögliche HTML-Titel, die aus irgendeinem Grund Attribute oder Ähnliches haben.
Weiß jemand eine gute Abhilfe für dieses Problem? Irgendwelche Tipps werden geschätzt.
Verwende die Idee, HTML mit regulären Ausdrücken zu analysieren und stattdessen eine echte HTML-Parsing-Bibliothek zu verwenden. Nach einer kurzen Suche fand ich dieses . Es ist eine viel sicherere Möglichkeit, Informationen aus einer HTML-Datei zu extrahieren.
Denken Sie daran, HTML ist keine reguläre Sprache, daher sind reguläre Ausdrücke grundsätzlich das falsche Werkzeug zum Extrahieren von Informationen.
Hier ist eine berühmte Antwort parsing HTML mit regulären Ausdrücken, die eine großartige Arbeit zu sagen, "Verwenden Sie keine Regex zum Parsen von HTML."