Keine triviale Aufgabe. Das Erstellen eines Sprachmodells ist eine zeit- und ressourcenintensive Aufgabe.
Wenn Sie ein "gutes" Sprachmodell haben wollen, benötigen Sie einen großen oder sehr großen Textkorpus, um ein Sprachmodell zu trainieren (denken Sie in der Größenordnung von mehreren Jahren Wall Street Journal-Texten).
"gut" bedeutet: wenn das Sprachmodell in der Lage sein wird, aus den Trainingsdaten auf neue und zuvor unsichtbare Eingabedaten zu verallgemeinern
Sie sollten sich die Dokumentation der Sphinx- und HTK-Sprachmodell-Toolkits ansehen.
Überprüfen Sie auch diese zwei Threads:
Erstellen eines Open-Source-kompatiblen Sprachmodells
Sie könnten ein allgemeineres Sprachmodell verwenden, das auf einem größeren Korpus basiert, und Ihr kleineres Sprachmodell damit interpolieren. ZB ein Back-Off-Sprachmodell ... aber das ist keine einfache Aufgabe.
siehe: Katz 'Back-Off-Model
Tags und Links speech-recognition cmusphinx