Ein N-Gramm ist eine geordnete Sammlung von N Elementen der gleichen Art, die normalerweise in einer großen Sammlung von vielen anderen ähnlichen N-Grammen präsentiert wird. Die einzelnen Elemente sind üblicherweise Wörter in natürlicher Sprache, obwohl N-Gramme auf viele andere Datentypen angewendet wurden, wie z. B. Zahlen, Buchstaben, genetische Proteine in der DNA usw. Statistische N-Gram-Analyse wird üblicherweise als Teil der Verarbeitung natürlicher Sprache durchgeführt. Bioinformatik und Informationstheorie.
Für eine von uns erstellte Anwendung verwenden wir ein einfaches statistisches Modell zur Wortvorhersage (wie Google Autocomplete ), um die Suche zu leiten.
Es verwendet eine Sequenz von Ngrammen, die aus einem großen Korpus relevanter Text...
22.03.2017, 20:46
Ich frage mich nur, was n-gramm (n & gt; 3) (und ihre Häufigkeit des Auftretens) unter Berücksichtigung des Berechnungsaufwands bei deren Berechnung ist. Gibt es Anwendungen, bei denen Bigramme oder Trigramme einfach nicht ausreichen?
Wenn ja...
23.04.2012, 18:20
Ich habe mit ElasticSearch für ein neues Projekt von mir gespielt. Ich habe die Standardanalysatoren eingestellt, um das ngram tokenfilter zu benutzen. Das ist meine elasticsearch.yml Datei:
%Vor%
Ich habe einen neuen Index erstellt und das...
18.02.2011, 17:43
Ich habe einen Code, der einen zyklischen polynomial rollenden Hash (Buzhash) verwendet, um Hashwerte von n-Gramm Quellcode zu berechnen. Wenn ich kleine Hash-Werte (7-8 Bits) verwende, dann gibt es einige Kollisionen, d. H. Unterschiedliche n-G...
03.05.2013, 18:38
Ich bin neu im maschinellen Lernen, also gehen Sie bitte einfach, falls das Problem trivial ist.
Ich habe eine Folge von beobachteten Zeichen erhalten, sagen wir, ABABBABBB ..... (n Zeichen). Mein Ziel ist es, die nächsten Charaktere durch ei...
12.03.2017, 13:30
In Anbetracht der big.txt von norvig.com/big.txt ist das Ziel, die Bigramme wirklich schnell zu zählen (Imagine dass ich das 100.000 mal wiederholen muss).
Nach Fast / Optimize N-Gramm-Implementierungen in Python Das Extrahieren von Bi...
02.11.2016, 06:03
Ich versuche den dissoziierten Druckalgorithmus basierend auf N-Gramm in scala zu kodieren.
So generieren Sie ein N-Gramm für große Dateien:
Zum Beispiel für die Datei, die "die Biene ist die Biene der Bienen" enthält.
Zuerst muss es ein zuf...
24.11.2011, 14:55