Kontinuierliche Spracherkennung beim Singen?

9

Als Teil meiner Bewerbung möchte ich Spracherkennung hinzufügen, aber nicht wirklich im herkömmlichen Sinne. Ich habe eine Reihe von Texten (in Strophen aufgeteilt), die von jemandem gesungen werden, und die Idee ist es, zu finden, welcher Vers gerade gesungen wird, damit er auf dem Bildschirm angezeigt werden kann.

Ich habe mit Sphinx herumgespielt und ein paar grundlegende Beispiele erstellt und gearbeitet, aber während es anscheinend genug Dokumentation gibt, um gesprochenen Text zu registrieren, wo man auf eine Verzögerung warten kann, kann ich das Ergebnis nicht verarbeiten finde viel über die Idee, Sätze kontinuierlich zu erkennen. Das ist natürlich bevor ich zu dem Teil komme, wo die Worte gesungen und nicht gesprochen werden!

Hat jemand Erfahrung damit, und wenn ja, gibt es irgendwo einen guten Ausgangspunkt? Oder versuche ich mit Sphinx viel zu ehrgeizig zu erreichen und wird es nie richtig funktionieren? Ich bin offen dafür, andere Bibliotheken anzuschauen, aber sie müssen frei sein, und Sphinx war die am meisten gesprochene, die ich ausgraben konnte.

    
berry120 23.08.2011, 13:20
quelle

1 Antwort

3

Es ist durchaus möglich, Sprache zu erkennen, sobald sie mit etwas Verzögerung ausgesprochen wird. Außerdem, wenn Sie mehr oder weniger verstehen, was Sie erwarten. Dies wird als "partielles Ergebnis" bezeichnet und ist in allen CMUSphinx-Decodern über API verfügbar. Grundsätzlich können Sie Hypothese in Prozess abrufen.

Es gibt ein kleines Problem bei der Stabilisierung dieses Ergebnisses (wie man den stabilen Teil davon extrahiert), aber diese Technik wird Backtracking genannt und könnte leicht implementiert werden.

Zum Singen, wenn die Musik herausgefiltert werden kann, ist es auch machbar.

    
Nikolay Shmyrev 14.09.2011, 10:22
quelle