n-gram

Ein N-Gramm ist eine geordnete Sammlung von N Elementen der gleichen Art, die normalerweise in einer großen Sammlung von vielen anderen ähnlichen N-Grammen präsentiert wird. Die einzelnen Elemente sind üblicherweise Wörter in natürlicher Sprache, obwohl N-Gramme auf viele andere Datentypen angewendet wurden, wie z. B. Zahlen, Buchstaben, genetische Proteine ​​in der DNA usw. Statistische N-Gram-Analyse wird üblicherweise als Teil der Verarbeitung natürlicher Sprache durchgeführt. Bioinformatik und Informationstheorie.
1
Antwort

Vorhersage von Phrasen statt nur des nächsten Wortes

Für eine von uns erstellte Anwendung verwenden wir ein einfaches statistisches Modell zur Wortvorhersage (wie Google Autocomplete ), um die Suche zu leiten. Es verwendet eine Sequenz von Ngrammen, die aus einem großen Korpus relevanter Text...
22.03.2017, 20:46
5
Antworten

Wann sind N-Gramme (n3) wichtig im Gegensatz zu Bigrammen oder Trigrammen?

Ich frage mich nur, was n-gramm (n & gt; 3) (und ihre Häufigkeit des Auftretens) unter Berücksichtigung des Berechnungsaufwands bei deren Berechnung ist. Gibt es Anwendungen, bei denen Bigramme oder Trigramme einfach nicht ausreichen? Wenn ja...
23.04.2012, 18:20
2
Antworten

ElasticSearch N-Gramm Tokenfilter findet keine Teilwörter

Ich habe mit ElasticSearch für ein neues Projekt von mir gespielt. Ich habe die Standardanalysatoren eingestellt, um das ngram tokenfilter zu benutzen. Das ist meine elasticsearch.yml Datei: %Vor% Ich habe einen neuen Index erstellt und das...
18.02.2011, 17:43
2
Antworten

Zyklische polynomiale Hash-Kollisionen verstehen

Ich habe einen Code, der einen zyklischen polynomial rollenden Hash (Buzhash) verwendet, um Hashwerte von n-Gramm Quellcode zu berechnen. Wenn ich kleine Hash-Werte (7-8 Bits) verwende, dann gibt es einige Kollisionen, d. H. Unterschiedliche n-G...
03.05.2013, 18:38
2
Antworten

Sequenzvorhersage von Charakteren?

Ich bin neu im maschinellen Lernen, also gehen Sie bitte einfach, falls das Problem trivial ist. Ich habe eine Folge von beobachteten Zeichen erhalten, sagen wir, ABABBABBB ..... (n Zeichen). Mein Ziel ist es, die nächsten Charaktere durch ei...
12.03.2017, 13:30
2
Antworten

Bigramme wirklich schnell zählen (mit oder ohne Multiprocessing) - Python

In Anbetracht der big.txt von norvig.com/big.txt ist das Ziel, die Bigramme wirklich schnell zu zählen (Imagine dass ich das 100.000 mal wiederholen muss). Nach Fast / Optimize N-Gramm-Implementierungen in Python Das Extrahieren von Bi...
02.11.2016, 06:03
3
Antworten

Wie erzeuge ich N-Gramm in Scala?

Ich versuche den dissoziierten Druckalgorithmus basierend auf N-Gramm in scala zu kodieren. So generieren Sie ein N-Gramm für große Dateien: Zum Beispiel für die Datei, die "die Biene ist die Biene der Bienen" enthält. Zuerst muss es ein zuf...
24.11.2011, 14:55