Es fällt sofort ein Algorithmus auf, der die Schritte zwischen Wörtern in einem Thesaurus zählt.
OK, es sieht so aus, als ob eine ähnliche Frage bereits beantwortet wurde: Gibt es einen Algorithmus, der die semantische Ähnlichkeit zweier Sätze erklärt .
Die Thesaurus-Idee hat einige Vorteile. Eine Idee wäre, ein Diagramm auf der Basis eines Thesaurus zu erstellen, bei dem die Knoten die Wörter und eine Kante sind, die anzeigt, dass sie im Thesaurus als Synonyme aufgelistet sind. Sie könnten dann einen Algorithmus für den kürzesten Pfad verwenden, um Ihnen den Abstand zwischen den Knoten als Maß für ihre Ähnlichkeit zu geben.
Eine Schwierigkeit besteht darin, dass einige Wörter in verschiedenen Kontexten unterschiedliche Bedeutungen haben. Ihr Algorithmus muss dies möglicherweise berücksichtigen und gerichtete Links mit dem Gewicht der ausgehenden Verbindung verwenden, abhängig von der eingehenden Verbindung, der gefolgt wird (oder einige abgehende Verbindungen basierend auf der eingehenden Verbindung ignorieren).
Im Text Mining gibt es eine wichtige Maxime: "Du sollst ein Wort wissen durch die Unternehmen, das es hält. "Es bedeutet, dass es möglich ist, die Bedeutung eines Wortes basierend auf den Begriffen zu lernen, die häufig in der Nähe erscheinen.
Ohne ausführliche Details zu geben, lassen Sie mich zwei einfache Optionen geben, um die semantische Distanz zwischen den Begriffen zu schätzen:
Verwenden Sie eine Ressource, die WordNet ähnlich ist (eine große lexikalische Datenbank mit Englisch). WordNet ähnelt oberflächlich einem Thesaurus, indem es Wörter anhand ihrer Bedeutungen gruppiert. Der semantische Abstand zwischen Wörtern kann als die Anzahl von Scheitelpunkten geschätzt werden, die die zwei Wörter verbinden.
Unter Verwendung eines großen Korpus (z. B. Wikipedia) zählen Sie die Begriffe, die in der Nähe der Wörter angezeigt werden, die Sie analysieren. Erstellen Sie zwei Vektoren und berechnen Sie eine Entfernung (z. B. Cosinus).
Sie können dieses Material überprüfen, um ein Bild über das Thema zu erhalten:
Möglicher Hack: Senden Sie die beiden Wörter an die Google-Suche und geben Sie die Anzahl der gefundenen Seiten zurück.
Tags und Links algorithm