R tm removeWords Funktion entfernt keine Wörter

8

Ich versuche einige Wörter aus einem Korpus zu entfernen, das ich gebaut habe, aber es scheint nicht zu funktionieren. Ich durchlaufe zuerst alles und erstelle einen Datenrahmen, der meine Wörter in der Reihenfolge ihrer Häufigkeit auflistet. Ich verwende diese Liste, um Wörter zu identifizieren, an denen ich nicht interessiert bin, und versuche dann, eine neue Liste mit den entfernten Wörtern zu erstellen. Die Wörter bleiben jedoch in meinem Datensatz. Ich frage mich, was ich falsch mache und warum die Wörter nicht entfernt werden? Ich habe den vollständigen Code unten eingefügt:

%Vor%

Wenn Sie tf1 durchsehen, werden Sie feststellen, dass viele der Wörter, die zum Entfernen angegeben wurden, nicht wirklich entfernt wurden.

Ich frage mich nur, was ich falsch mache und wie ich diese Wörter aus meinen Daten entfernen könnte?

HINWEIS: removeWords macht etwas, weil die Ausgabe von head(tm, 100) und head(tm1, 100) nicht exakt gleich ist. So scheint removeWords einige Instanzen der Wörter zu entfernen, die ich loswerden möchte, aber nicht alle Instanzen.

    
Adam 26.08.2015, 11:44
quelle

2 Antworten

14

Ich habe Code umgestellt und hinzugefügt. Die Stoppwörter sind alle in Kleinbuchstaben, also müssen Sie dies zuerst tun, bevor Sie Stoppwörter entfernen.

%Vor%

Großbuchstaben werden nicht mehr benötigt, da wir alles auf Kleinbuchstaben setzen. Sie können diese entfernen.

%Vor%

Und wie Sie sehen, ist das Ergebnis, dass das Studium nicht mehr im Korpus stattfindet. Der Rest der Wörter ist auch weg

    
phiver 26.08.2015, 12:46
quelle
5

Wenn jemand Fehler wie ich und oben Lösung immer noch nicht funktioniert, versuchen Sie es mit: paperCorp <- tm_map(paperCorp, content_transformer(tolower)) anstelle von paperCorp <- tm_map(paperCorp, tolower) , weil tolower() eine Funktion aus dem Basispaket ist und eine andere Struktur zurückgibt (ich meine etwas im Ergebnistyp ändert), so dass Sie nicht paperCorp[[j]]$content , sondern nur paperCorp[[j]] verwenden können. Es ist nur ein Abschweifung, vielleicht halpful für jemanden.

    
Peter.k 05.12.2016 21:15
quelle

Tags und Links