Unter Verwendung der Python-Dokumentation habe ich den HTML-Parser gefunden, aber ich habe keine Ahnung, in welche Bibliothek importiert werden soll benutze es, wie finde ich das heraus (bedenkt man, dass es nicht auf der Seite steht).
Sie möchten wahrscheinlich BeautifulSoup , überprüfen Sie den Link zum Beispiel.
Aber auf jeden Fall
%Vor%Ich würde empfehlen, stattdessen Beautiful Soup zu verwenden und es hat gute Dokumentation .
Sie könnten an lxml interessiert sein. Es ist ein separates Paket und hat C-Komponenten, ist aber am schnellsten. Es hat auch eine sehr nette API, mit der Sie Links in HTML-Dokumenten auflisten oder Formulare auflisten, HTML bereinigen und vieles mehr. Es hat auch Funktionen zum Parsen nicht gut geformten HTML (es ist konfigurierbar).
Sie sollten sich auch html5lib für Python ansehen, wenn es versucht, HTML auf eine Weise zu analysieren, die sehr ähnlich wie das ist Web-Browser tun dies, besonders wenn es sich um ungültiges HTML handelt (was mehr als 90% des heutigen Webs ausmacht).
Für echte HTML-Verarbeitung würde ich BeautifulSoup empfehlen. Es ist großartig und nimmt viel von dem Schmerz weg. Die Installation ist einfach.
Es gibt einen Link zu einem Beispiel am unteren Rand von ( Ссылка ), das geht einfach nicht arbeite mit dem Original Python oder Python3. Es muss python2 sein, wie es oben steht.