HTML-Parser in Python

7

Unter Verwendung der Python-Dokumentation habe ich den HTML-Parser gefunden, aber ich habe keine Ahnung, in welche Bibliothek importiert werden soll benutze es, wie finde ich das heraus (bedenkt man, dass es nicht auf der Seite steht).

    
Teifion 16.09.2008, 10:49
quelle

8 Antworten

13

Versuchen Sie:

%Vor%

In Python 3.0 wurde das HTMLParser-Modul in html.parser umbenannt Sie können hier hier

nachsehen

Python 3.0

%Vor%

Python 2.2 und höher

%Vor%     
1077 16.09.2008, 10:51
quelle
23

Sie möchten wahrscheinlich BeautifulSoup , überprüfen Sie den Link zum Beispiel.

Aber auf jeden Fall

%Vor%     
Vinko Vrsalovic 16.09.2008 10:54
quelle
4

Ich würde empfehlen, stattdessen Beautiful Soup zu verwenden und es hat gute Dokumentation .

    
Swaroop C H 16.09.2008 10:54
quelle
4

Sie könnten an lxml interessiert sein. Es ist ein separates Paket und hat C-Komponenten, ist aber am schnellsten. Es hat auch eine sehr nette API, mit der Sie Links in HTML-Dokumenten auflisten oder Formulare auflisten, HTML bereinigen und vieles mehr. Es hat auch Funktionen zum Parsen nicht gut geformten HTML (es ist konfigurierbar).

    
Paweł Hajdan 17.09.2008 11:19
quelle
4

Sie sollten sich auch html5lib für Python ansehen, wenn es versucht, HTML auf eine Weise zu analysieren, die sehr ähnlich wie das ist Web-Browser tun dies, besonders wenn es sich um ungültiges HTML handelt (was mehr als 90% des heutigen Webs ausmacht).

    
Alexey Feldgendler 16.09.2008 12:14
quelle
3

Ich empfehle BeautifulSoup nicht, wenn Sie Geschwindigkeit wollen. lxml ist viel, viel schneller, und Sie können in BS-Soupparser von lxml zurückgreifen, wenn der Standard-Parser nicht funktioniert.

    
1077 16.09.2008 13:21
quelle
1

Für echte HTML-Verarbeitung würde ich BeautifulSoup empfehlen. Es ist großartig und nimmt viel von dem Schmerz weg. Die Installation ist einfach.

    
Antti Rasinen 16.09.2008 10:55
quelle
1

Es gibt einen Link zu einem Beispiel am unteren Rand von ( Ссылка ), das geht einfach nicht arbeite mit dem Original Python oder Python3. Es muss python2 sein, wie es oben steht.

    
Vytautas Shaltenis 16.09.2008 10:52
quelle

Tags und Links