Meta-Schlüsselwörter aus der Webseite extrahieren?

8

Ich muss die Meta-Schlüsselwörter von einer Webseite mit Python extrahieren. Ich dachte, dass dies mit urllib oder urllib2 gemacht werden könnte, aber ich bin mir nicht sicher. Hat jemand irgendwelche Ideen?

Ich verwende Python 2.6 unter Windows XP

    
Zac Brown 09.07.2010, 19:15
quelle

3 Antworten

10

lxml ist schneller als BeautifulSoup (glaube ich) und hat viel bessere Funktionalität, bleibt aber relativ einfach zu bedienen . Beispiel:

%Vor%

Bearbeiten: ein anderes Beispiel.

%Vor%

BTW: XPath ist es wert zu wissen.

Noch ein Schnitt:

Alternativ können Sie auch regexp:

verwenden %Vor%

... aber ich finde es weniger lesbar und fehleranfälliger (aber beinhaltet nur Standard-Modul und passt immer noch auf eine Zeile).

    
cji 09.07.2010, 19:34
quelle
7

BeautifulSoup ist eine großartige Möglichkeit, HTML mit Python zu analysieren.

Sehen Sie sich die findAll-Methode an: Ссылка

    
Donald Miner 09.07.2010 19:17
quelle
0

Warum nicht einen regulären Ausdruck verwenden?

%Vor%     
Ricky Wilson 23.10.2013 15:01
quelle