Während BeautifulSoup wird häufiger verwendet, HTML Tidy kann eine bessere Wahl sein, wenn Du arbeitest mit Macken und hast spezifischere Anforderungen.
Nachdem die Bibliothek für Python ( pip install pytidylib
) versuchen, den folgenden Code zu installieren:
tidy.tidy_document
gibt ein Tupel mit dem HTML und eventuell aufgetretenen Fehlern zurück. Dieser Code wird
Durch Auskommentieren der "show-body-only": True
für die zweite Stichprobe.
Siehe weitere Konfiguration für weitere Optionen und Anpassung. Es gibt spezielle Wrapping-Optionen für Attribute, die hilfreich sein können. Wie Sie sehen können, werden leere Elemente nur eine Zeile aufnehmen, und html-ordentlich wird automatisch versuchen Dinge wie DOCTYPE
, head
und title
Tags hinzuzufügen.