Wie kann ich die korrekte Großschreibung für ein Wort am besten ermitteln?

Question

Wie kann ich die korrekte Großschreibung für ein Wort am besten ermitteln?

8

Ich habe eine Datenbank mit Sätzen, die nur Großbuchstaben enthalten. Die Datenbank ist technisch und enthält medizinische Begriffe, und ich möchte sie normalisieren, so dass die Großschreibung (nahe) dem entspricht, was der Benutzer erwartet. Was ist der beste Weg, dies zu erreichen? Gibt es einen frei verfügbaren Datensatz, mit dem ich den Prozess unterstützen kann?

nlp

Mike 09.10.2011, 21:32

quelle

3 Antworten

Tags und Links nlp

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Kann Breite und Höhe nicht auf -webkit-Bildlaufleiste mit CSS anwenden

score 7 · Answer 1

Eine Möglichkeit könnte sein, die Großschreibung aus dem POS-Tagging abzuleiten, zum Beispiel mit dem Python Natural Language Toolkit (NLTK):

%Vor%

Das wird nicht perfekt sein, vor allem, weil ich nicht weiß, wie Ihre Daten genau aussehen, aber vielleicht können Sie sich vorstellen:

%Vor%

score 4 · Answer 2

Suche nach Arbeiten zum Wahrnehmen: Ссылка

Es wäre sehr einfach, einen eigenen Datensatz zu erstellen, wenn Sie Zugang zu ähnlichen medizinischen Daten mit normaler Großschreibung haben. Kapitalisieren Sie alles und verwenden Sie die Zuordnung zum Originaltext, um Ihren Algorithmus zu trainieren / testen.

score 2 · Answer 3

Am einfachsten ist es, einen Algorithmus zur Rechtschreibkorrektur zu verwenden, der auf Ngrammen basiert.

Sie können zum Beispiel LingPipe SpellChecker verwenden. Sie können Quellcode für die Vorhersage von Leerzeichen in Word finden, ähnlich wie bei der Vorhersage von Groß- und Kleinschreibung.