Textkategorisierung in R

9

Mein Ziel ist es, die Feedback-E-Mail automatisch an die jeweilige Abteilung weiterzuleiten.
Meine Felder sind FNUMBER , CATEGORY , SUBCATEGORY , Description .
Ich habe die letzten 6 Monate Daten im obigen Format - wobei die gesamte Email in Description zusammen mit CATEGORY und SUBCATEGORY gespeichert wird.

Ich muss die DESCRIPTION -Spalte analysieren und die Keywords für Each Category/subcategory finden. Wenn die nächste Feedback-E-Mail eingegeben wird, sollte sie automatisch in Kategorien und Unterkategorien basierend auf Keyword Generated from history Data

Ich habe eine XML-Datei in R importiert - für Text-Kategorisierung in R und dann das XML in einen Datenrahmen mit Pflichtfeldern konvertiert. Ich habe 23017 Datensätze für einen bestimmten Monat - ich habe nur die ersten zwanzig Spalten als einen Datenrahmen unten aufgeführt.

Ich habe mehr als 100 Kategorien und Unterkategorien.
Ich bin neu in Text Mining Concept - aber mit Hilfe von SO und tm Paket - habe ich unten Code versucht:

%Vor%

UPDATE: Ich habe jetzt die häufig vorkommenden Schlüsselwörter auf dem gesamten Datensatz:

%Vor%

Ich bin danach fest. Ich bin mir nicht sicher, wie ich es bekommen soll:

1.Die relevanten Keywords (Unigramme, Bi-Gramme und Trigramme) für Each Category/subcategory , indem ein Taxonomy list (Schlüsselwörter mit Kategorie / Unterkategorie) generiert wird.

2.wenn die nächste Feedback-E-Mail eingegeben wird, wie in Kategorien und Unterkategorien eingeordnet werden soll. (es gibt über 100 Kategorien) basierend auf der Keyword-Taxonomie-Liste, die im obigen Schritt generiert wurde.
3. Oder, wenn mein oben beschriebener Verständnis- und Lösungsteil nicht korrekt ist, berate mich über andere mögliche Optionen.

Ich habe Materialien im Internet durchsucht (ich kann nur die Klassifizierung von Text in nur zwei Klassen sehen, nicht mehr als das) - aber ich bin nicht in der Lage, weiter zu gehen. Ich bin neu in Text Mining in R - so Entschuldigung, wenn das sehr naiv ist.

Jede Hilfe oder jeder Startpunkt wäre großartig.

    
RUser 10.03.2014, 04:35
quelle

1 Antwort

1

Ich werde hier eine kurze Antwort geben, weil Ihre Frage ein wenig vage ist.

Dieser Code unten erstellt schnell eine TDM für jede Kategorie für 2-Gramm.

%Vor%

Die resultierende Liste "all" ist ein bisschen hässlich. Sie können names(all) ausführen, um sich die Kategorien anzusehen. Ich bin mir sicher, dass es einen saubereren Weg gibt, dies zu lösen, aber hoffentlich bringt dich das auf einen der vielen richtigen Pfade ...

    
slimCity 16.03.2014 09:48
quelle

Tags und Links