Ich muss alle Stadtnamen von einer Website extrahieren. Ich habe beautifulSoup mit RE in früheren Projekten verwendet, aber auf dieser Website sind die Ortsnamen Teil von normalem Text und haben kein spezifisches Format. Ich habe ein Geografie-Paket gefunden ( Ссылка ), das meine Anforderungen erfüllt.
Geografie verwendet Nltk-Paket. Ich habe alle Modelle und Pakete für nltk installiert, aber es wirft immer wieder diesen Fehler auf:
%Vor%Jede Hilfe wäre willkommen
Nehmen Sie nicht an, dass alle Benutzer lib-Dateien ändern. Für den Kerl oder irgendjemanden, der Hilfe benötigt, müssen Sie darauf zugreifen, wo das Paket installiert ist. Sie möchten die extraktion.py ändern. Wenn Sie Windows 10 oder etwas Ähnliches verwenden, befindet sich die Datei unter C: \ Python27 \ Lib \ site-packages \ geography \ extraction.py. Es befindet sich normalerweise im selben Installationsverzeichnis wie Python. Wie zuvor schon erwähnt, ändern Sie (Zeile 31)
if (ne.node == 'GPE' oder ne.node == 'PERSON') und ne [0] [1] == 'NNP':
bis
if (ne.label () == 'GPE' oder ne.label () == 'PERSON') und ne [0] [1] == 'NNP':
Fertig. Glückliche Kodierung.
Es sieht so aus, als ob geograpy
die Methode node
eines nltk
Tree
-Objekts aufruft:
, das das nltk
-Paket als veraltet markiert hat:
Das Paket ist kaputt. Sie können es selbst reparieren oder ein anderes verwenden.