Gibt es einen Algorithmus, der aussagekräftige Tags von englischem Text extrahiert

8

Ich möchte eine reduzierte Sammlung von "bedeutungsvollen" Tags (10 max) aus einem englischen Text beliebiger Größe extrahieren.

Ссылка ist ziemlich interessant, aber der Algorithmus scheint sehr einfach zu sein (nur Wörter zählen)

Gibt es einen anderen vorhandenen Algorithmus, um dies zu tun?

    
sachaa 15.09.2008, 22:48
quelle

7 Antworten

6

Dafür gibt es Web-Services. Zwei Drei Beispiele:

ceejayoz 15.09.2008 23:06
quelle
2

Wenn Sie das menschliche Element (Tagging) subtrahieren, bleibt nur noch die Frequenz übrig. "Ignoriere gängige englische Wörter" ist der nächstbeste Filter, da es sich um Ausschluss statt um Einbeziehung handelt. Ich habe ein paar Seiten getestet und es ist sehr genau. Es gibt wirklich keinen anderen Weg, "Bedeutung" abzuleiten, weshalb das Semantic Web heutzutage so viel Aufmerksamkeit bekommt. Es ist ein Weg, Bedeutung mit HTML zu implizieren ... natürlich hat das auch ein menschliches Element.

    
user4903 15.09.2008 22:54
quelle
1

Dies ist im Grunde ein Problem der Kategorisierung von Text / Dokumentklassifikation. Wenn Sie Zugriff auf mehrere bereits markierte Dokumente haben, können Sie analysieren, welche (inhaltlichen) Wörter welche Tags auslösen, und diese Informationen dann zum Markieren neuer Dokumente verwenden.

Wenn Sie keinen maschinellen Lernansatz verwenden möchten und immer noch eine Dokumentensammlung haben, können Sie Metriken wie tf.idf , um interessante Wörter herauszufiltern.

Wenn Sie einen Schritt weiter gehen, können Sie Wordnet verwenden, um Synonyme zu finden und Wörter durch ihr Synonym zu ersetzen, wenn die Häufigkeit des Synonyms ist höher.

Manning & amp; Schütze enthält viel mehr Einführung in die Kategorisierung von Texten.

    
Torsten Marek 15.09.2008 23:03
quelle
1

In der Textklassifizierung wird dieses Problem als Dimensionsreduktion bezeichnet. Es gibt viele nützliche Algorithmen in der Literatur zu diesem Thema.

    
Andrew 15.09.2008 23:03
quelle
1

Sie möchten die semantische Analyse eines Textes machen.

Die Worthäufigkeitsanalyse ist eine der einfachsten Methoden für die semantische Analyse. Leider (und offensichtlich) ist es das am wenigsten genaue. Es kann verbessert werden, indem man spezielle Wörterbücher benutzt (wie für Synonim oder Formen eines Wortes), "Stop-Listen" mit gewöhnlichen Wörtern, anderen Texten (um diese "allgemeinen" Wörter zu finden und sie auszuschließen) ...

Wie für andere Algorithmen könnten sie auf folgenden basieren:

  • Syntaxanalyse (wie der Versuch, das Hauptthema und / oder Verb in einem Satz zu finden)
  • Formatanalyse (Analyse von Kopfzeilen, fettem Text, kursiv ... wo zutreffend)
  • Referenzanalyse (wenn sich der Text beispielsweise im Internet befindet, kann eine Referenz ihn in mehreren Wörtern beschreiben, die von einigen Suchmaschinen verwendet werden)

ABER ... Sie sollten verstehen, dass diese Algorithmen nur Heuristiken für die semantische Analyse sind, nicht die strengen Algorithmen, um das Ziel zu erreichen. Das Problem der semantischen Analyse ist eines der Hauptprobleme in den Studien der Künstlichen Intelligenz / des maschinellen Lernens seit dem Erscheinen der ersten Computer.

    
Max Galkin 16.09.2008 12:52
quelle
0

Vielleicht "Term Frequency - Inverse Dokument Häufigkeit" TF-IDF wäre nützlich ...

>     
Chuck Wooters 15.09.2008 23:02
quelle
0

Sie können dies in zwei Schritten verwenden:

1 - Probiere Themenmodellierungsalgorithmen aus:

  • Latente Dirichlet-Zuordnung
  • Latentes Wort Einbettungen

2 - Danach können Sie das repräsentativste Wort jedes Themas als Tag auswählen

    
Rob 03.11.2016 20:58
quelle

Tags und Links