Wie kann ich die korrekte Großschreibung für ein Wort am besten ermitteln?

8

Ich habe eine Datenbank mit Sätzen, die nur Großbuchstaben enthalten. Die Datenbank ist technisch und enthält medizinische Begriffe, und ich möchte sie normalisieren, so dass die Großschreibung (nahe) dem entspricht, was der Benutzer erwartet. Was ist der beste Weg, dies zu erreichen? Gibt es einen frei verfügbaren Datensatz, mit dem ich den Prozess unterstützen kann?

    
Mike 09.10.2011, 21:32
quelle

3 Antworten

7

Eine Möglichkeit könnte sein, die Großschreibung aus dem POS-Tagging abzuleiten, zum Beispiel mit dem Python Natural Language Toolkit (NLTK):

%Vor%

Das wird nicht perfekt sein, vor allem, weil ich nicht weiß, wie Ihre Daten genau aussehen, aber vielleicht können Sie sich vorstellen:

%Vor%     
tobigue 10.10.2011 10:32
quelle
4

Suche nach Arbeiten zum Wahrnehmen: Ссылка

Es wäre sehr einfach, einen eigenen Datensatz zu erstellen, wenn Sie Zugang zu ähnlichen medizinischen Daten mit normaler Großschreibung haben. Kapitalisieren Sie alles und verwenden Sie die Zuordnung zum Originaltext, um Ihren Algorithmus zu trainieren / testen.

    
aab 10.10.2011 08:57
quelle
2

Am einfachsten ist es, einen Algorithmus zur Rechtschreibkorrektur zu verwenden, der auf Ngrammen basiert.

Sie können zum Beispiel LingPipe SpellChecker verwenden. Sie können Quellcode für die Vorhersage von Leerzeichen in Word finden, ähnlich wie bei der Vorhersage von Groß- und Kleinschreibung.

    
yura 10.10.2011 13:55
quelle

Tags und Links