Wie funktioniert die chinesische Spracherkennung im iPhone?

8

Können OpenEars chinesische Spracherkennung durchführen? Siehe hier: Ссылка

    
hexun 01.08.2011, 06:13
quelle

1 Antwort

6

Ich bin der OpenEars-Entwickler. OpenEars bietet nur eine Spracherkennung in englischer Sprache. Es gibt ein Mandarin-Akustikmodell in der von OpenEars verwendeten Pocksphinx-Distribution, so dass es möglich ist, es durch das englische Akustikmodell in der Anleitung zu ersetzen, falls Sie selbst besitzen Methode für die Erstellung eines kompatiblen Sprachmodells und phonetischen Wörterbuchs und Sie sind für einige selbstgesteuerte Forschung und Tests. Das akustische Modell heißt tdt_sc_8k. Sie würden es anstelle des Ordners in der Anleitung mit dem Namen hub4wsj_sc_8k verwenden, aber es gibt mehr, was Sie tun müssen, damit es funktioniert.

Wenn Sie dies ausprobieren möchten, sollten Sie die Sphinx-Projektdokumentation auf der CMU-Sprachseite in der richtigen Reihenfolge lesen um ein klares Verständnis der Beziehung zwischen dem akustischen Modell, dem Sprachmodell und dem phonetischen Wörterbuch zu erhalten und herauszufinden, wie Sie Ihr kompatibles Sprachmodell erstellen können. Sie können vielleicht mit dem phonetischen Wörterbuch auf diese Seite als Masterwörterbuch, das Sie kleinere iPhone-phonetische Wörterbücher und anschließend Sprachmodelle erstellen können, da es vermutlich mit dem akustischen Modell kompatibel ist. Das Sprachmodell auf dieser Seite ist viel zu groß für OpenEars. Zum Testen würde ich wahrscheinlich ein Befehls- und Kontrollmodell von etwa 100 Wörtern erstellen. Sie sollten in der Lage sein, das Sphinx Knowledge Base Tool zu verwenden, um das Sprachmodell aus einem Korpus von Wörter, von denen Sie bereits ein phonetisches Wörterbuch erstellt haben.

Der nächste Schritt besteht darin, Ihr akustisches Modell, Sprachmodell und phonetisches Wörterbuch als bekannt zu bestätigen und in einer herkömmlichen Pocksphinx-Installation, z. B. unter Linux, zu arbeiten. Wenn Sie damit gute Ergebnisse erzielen, könnten Sie zum OpenEars-Forum kommen und ich werde versuchen, Ihnen zu helfen, es in OpenEars zum Laufen zu bringen (es gibt keine Garantien, da dieses akustische Modell noch nie Teil des Tests war, aber ich kann auch ' Ich denke an einen bestimmten Grund, dass es nicht funktionieren würde). Die LanguageModelGenerator-Klasse von OpenEars funktioniert definitiv nur mit Englisch. Sie sind dafür verantwortlich sicherzustellen, dass das akustische Modell so lizenziert ist, dass es nicht in einer App Store-App verwendet wird, wenn Sie Ihr Projekt so verteilen möchten.

Viel Glück!

BEARBEITEN: Ich wollte dies aktualisieren, um Sie wissen zu lassen, dass das akustische Mandarin-Modell nun Teil von OpenEarsExtras , und zu sagen, dass LanguageModelGenerator jetzt aktualisiert wurde, so dass Sie ihm ein beliebiges phonetisches Master-Wörterbuch Ihrer Wahl geben können, wenn Sie eines mit der richtigen Formatierung haben (das Wort gefolgt von einem Tab gefolgt von den folgenden Phonemen) durch einen Zeilenumbruch, alphabetisch), was es viel einfacher machen sollte, den dynamischen Sprachmodellierer mit anderen Sprachen als Englisch zu verwenden, wenn Sie bereits ein akustisches Modell haben.

Wie es funktionieren sollte, ist, dass Sie ein Nachschlagewörterbuch in der gewünschten Sprache haben, das analog zu dem englischen Nachschlagewörterbuch cmu07a.dic ist, und LanguageModelGenerator den Rest handhabt, so dass meine Aussage darüber mehrere erfordert Schritte und Nachforschungen sollten nicht mehr unbedingt der Fall sein, wenn Sie ein phonetisches Wörterbuch haben, aus dem Sie die Aussprache ablesen können. Feedback darüber, wie dies für Sie in der Praxis funktioniert, wäre im OpenEars-Forum sehr willkommen (bitte geben Sie kein Feedback oder Bug ab.) Berichte hier auf Stack Overflow).

    
Halle 01.08.2011, 07:41
quelle