Ich möchte eine reduzierte Sammlung von "bedeutungsvollen" Tags (10 max) aus einem englischen Text beliebiger Größe extrahieren.
Ссылка ist ziemlich interessant, aber der Algorithmus scheint sehr einfach zu sein (nur Wörter zählen)
Gibt es einen anderen vorhandenen Algorithmus, um dies zu tun?
Dafür gibt es Web-Services. Zwei Drei Beispiele:
Wenn Sie das menschliche Element (Tagging) subtrahieren, bleibt nur noch die Frequenz übrig. "Ignoriere gängige englische Wörter" ist der nächstbeste Filter, da es sich um Ausschluss statt um Einbeziehung handelt. Ich habe ein paar Seiten getestet und es ist sehr genau. Es gibt wirklich keinen anderen Weg, "Bedeutung" abzuleiten, weshalb das Semantic Web heutzutage so viel Aufmerksamkeit bekommt. Es ist ein Weg, Bedeutung mit HTML zu implizieren ... natürlich hat das auch ein menschliches Element.
Dies ist im Grunde ein Problem der Kategorisierung von Text / Dokumentklassifikation. Wenn Sie Zugriff auf mehrere bereits markierte Dokumente haben, können Sie analysieren, welche (inhaltlichen) Wörter welche Tags auslösen, und diese Informationen dann zum Markieren neuer Dokumente verwenden.
Wenn Sie keinen maschinellen Lernansatz verwenden möchten und immer noch eine Dokumentensammlung haben, können Sie Metriken wie tf.idf , um interessante Wörter herauszufiltern.
Wenn Sie einen Schritt weiter gehen, können Sie Wordnet verwenden, um Synonyme zu finden und Wörter durch ihr Synonym zu ersetzen, wenn die Häufigkeit des Synonyms ist höher.
Manning & amp; Schütze enthält viel mehr Einführung in die Kategorisierung von Texten.
Sie möchten die semantische Analyse eines Textes machen.
Die Worthäufigkeitsanalyse ist eine der einfachsten Methoden für die semantische Analyse. Leider (und offensichtlich) ist es das am wenigsten genaue. Es kann verbessert werden, indem man spezielle Wörterbücher benutzt (wie für Synonim oder Formen eines Wortes), "Stop-Listen" mit gewöhnlichen Wörtern, anderen Texten (um diese "allgemeinen" Wörter zu finden und sie auszuschließen) ...
Wie für andere Algorithmen könnten sie auf folgenden basieren:
ABER ... Sie sollten verstehen, dass diese Algorithmen nur Heuristiken für die semantische Analyse sind, nicht die strengen Algorithmen, um das Ziel zu erreichen. Das Problem der semantischen Analyse ist eines der Hauptprobleme in den Studien der Künstlichen Intelligenz / des maschinellen Lernens seit dem Erscheinen der ersten Computer.
Vielleicht "Term Frequency - Inverse Dokument Häufigkeit" TF-IDF wäre nützlich ...
>