Wie reinige ich Twitter-Daten in R?

9

Ich habe mithilfe des twitteR-Pakets Tweets aus Twitter extrahiert und in einer Textdatei gespeichert.

Ich habe folgendes am Corpus durchgeführt

%Vor%

(mit mc.cores = 1 und lazy = True, sonst läuft R auf mac in Fehlern)

%Vor%

Aber dieser Begriff Dokumentenmatrix hat viele seltsame Symbole, bedeutungslose Wörter und dergleichen. Wenn ein Tweet ist

%Vor%

Nach der Reinigung des Tweets möchte ich nur korrekte vollständige englische Wörter übriglassen, d. h. einen Satz / eine Phrase, die von allem anderen leer ist (Benutzernamen, verkürzte Wörter, URLs)

Beispiel:

%Vor%

(Hinweis: Die Transformationsbefehle im tm-Paket können nur Stoppwörter, Interpunktions-Whitespaces und auch die Konvertierung in Kleinbuchstaben entfernen)

    
kRazzy R 10.07.2015, 19:04
quelle

2 Antworten

9

Verwenden von gsub und

  

stringr-Paket

Ich habe einen Teil der Lösung zum Entfernen von Retweets, Verweisen auf Bildschirmnamen, Hashtags, Leerzeichen, Zahlen, Interpunktionen, URLs herausgefunden.

%Vor%

Hinweis: (Hicks, 2014) Nach dem oben genannten Ich habe das unten gemacht.

%Vor%

ref: (Stanton 2013)

Bevor ich eines der oben genannten Schritte ausgeführt habe, habe ich die ganze Zeichenfolge in ein einzelnes langes Zeichen unter Verwendung der folgenden Werte reduziert.

paste(mytweets, collapse=" ")

Dieser Reinigungsprozess hat im Gegensatz zu den tm_map-Transformationen sehr gut funktioniert.

Alles, was ich jetzt noch habe, ist eine Reihe von richtigen Wörtern und sehr wenigen unpassenden Worten. Jetzt muss ich nur herausfinden, wie man die nicht korrekten englischen Wörter entfernt. Wahrscheinlich werde ich meine Wörter von einem Wörterbuch der Wörter abziehen müssen.

    
kRazzy R 10.07.2015, 23:55
quelle
2

Um die URLs zu entfernen, könnten Sie Folgendes versuchen:

%Vor%

Möglicherweise könnten Sie ähnliche Funktionen definieren, um den Text weiter zu transformieren.

    
RHertel 10.07.2015 19:33
quelle