Ich habe eine Datenbank mit Sätzen, die nur Großbuchstaben enthalten. Die Datenbank ist technisch und enthält medizinische Begriffe, und ich möchte sie normalisieren, so dass die Großschreibung (nahe) dem entspricht, was der Benutzer erwartet. Was ist der beste Weg, dies zu erreichen? Gibt es einen frei verfügbaren Datensatz, mit dem ich den Prozess unterstützen kann?
Eine Möglichkeit könnte sein, die Großschreibung aus dem POS-Tagging abzuleiten, zum Beispiel mit dem Python Natural Language Toolkit (NLTK):
%Vor%Das wird nicht perfekt sein, vor allem, weil ich nicht weiß, wie Ihre Daten genau aussehen, aber vielleicht können Sie sich vorstellen:
%Vor%Suche nach Arbeiten zum Wahrnehmen: Ссылка
Es wäre sehr einfach, einen eigenen Datensatz zu erstellen, wenn Sie Zugang zu ähnlichen medizinischen Daten mit normaler Großschreibung haben. Kapitalisieren Sie alles und verwenden Sie die Zuordnung zum Originaltext, um Ihren Algorithmus zu trainieren / testen.
Am einfachsten ist es, einen Algorithmus zur Rechtschreibkorrektur zu verwenden, der auf Ngrammen basiert.
Sie können zum Beispiel LingPipe SpellChecker verwenden. Sie können Quellcode für die Vorhersage von Leerzeichen in Word finden, ähnlich wie bei der Vorhersage von Groß- und Kleinschreibung.
Tags und Links nlp