Extrahiert Emoticons aus einem Text

9

Ich muss Text Emoticons aus einem Text mit Python extrahieren und ich habe nach einigen Lösungen gesucht, aber die meisten von ihnen mögen dies oder dies deckt nur ab einfache Emoticons. Ich muss alle analysieren.

Momentan verwende ich eine Liste von Emoticons, die ich für jeden Text, den ich bearbeitet habe, wiederhole, aber das ist so ineffizient. Kennst du eine bessere Lösung? Vielleicht eine Python-Bibliothek, die mit diesem Problem umgehen kann?

    
David Moreno García 21.05.2015, 10:22
quelle

1 Antwort

4

Eine der effizientesten Lösungen ist die Verwendung des Aho-Corasick String-Matching-Algorithmus und ist nicht trivial Algorithmus für diese Art von Problem entwickelt. (Suche nach mehreren vordefinierten Strings in unbekanntem Text)

Dafür gibt es ein Paket.
Ссылка
Ссылка

Bearbeiten: Es gibt auch neuere Pakete verfügbar (Ports ausprobiert) Ссылка

Extra:
Ich habe einen Leistungstest mit pyahocorasick gemacht und es ist schneller als python bei der Suche nach mehr als 1 Wort in dict (2 oder mehr).

Hier ist Code:

%Vor%     
Luka Rahne 21.05.2015, 10:35
quelle