Wie erstelle ich ein Sprachmodell mit großen Vokabeln für CMU Sphinx?

8

Ich möchte ein Sprachmodell für CMU Sphinx erstellen, aber mein Korpus hat mehr als 1000 Wörter, so dass ich das Online-Tool nicht verwenden kann. Wie verwende ich (die Skripte in cmuclmtk?), Um mein Sprachmodell zu erstellen?

    
joeforker 24.01.2011, 14:49
quelle

2 Antworten

6

Bitte lesen Sie das Tutorial

Ссылка

    
Nikolay Shmyrev 24.01.2011, 19:20
quelle
1

Keine triviale Aufgabe. Das Erstellen eines Sprachmodells ist eine zeit- und ressourcenintensive Aufgabe.

Wenn Sie ein "gutes" Sprachmodell haben wollen, benötigen Sie einen großen oder sehr großen Textkorpus, um ein Sprachmodell zu trainieren (denken Sie in der Größenordnung von mehreren Jahren Wall Street Journal-Texten).

"gut" bedeutet: wenn das Sprachmodell in der Lage sein wird, aus den Trainingsdaten auf neue und zuvor unsichtbare Eingabedaten zu verallgemeinern

Sie sollten sich die Dokumentation der Sphinx- und HTK-Sprachmodell-Toolkits ansehen.

Ссылка

Überprüfen Sie auch diese zwei Threads:

Erstellen eines Open-Source-kompatiblen Sprachmodells

Ruby-Textanalyse

Sie könnten ein allgemeineres Sprachmodell verwenden, das auf einem größeren Korpus basiert, und Ihr kleineres Sprachmodell damit interpolieren. ZB ein Back-Off-Sprachmodell ... aber das ist keine einfache Aufgabe.

siehe: Katz 'Back-Off-Model

    
Tilo 05.10.2011 02:01
quelle

Tags und Links