Ich arbeite an einem Projekt, bei dem ein biometrisches System zur Sicherung des Systems verwendet wird. Wir planen, menschliche Stimme zu verwenden, um das System zu sichern.
Idee ist es, der Person zu erlauben, einige Wörter oder Sätze zu sagen, und System speichert diese Stimme im digitalen Format. Das nächste Mal, wenn eine Person in das System eintreten möchte, muss sie einige Wörter sprechen, die sich von den zuvor verwendeten Wörtern unterscheiden können oder nicht.
Wir möchten keine Wörter zuordnen, sondern die Sprachfrequenz anpassen.
Ich habe einige Forschungsarbeiten zu diesem System gelesen, aber diese Papiere haben keine Implementierungsdetails.
Ich möchte nur wissen, ob es eine Software / API gibt, die analoge Sprache in ein digitales Format umwandeln kann und uns auch die Frequenz der Stimme sagt.
Bis jetzt arbeitete ich an normalen webbasierten Anwendungen, also kenne ich normale APIs und Plattformen wie Java EE, C #, etc, aber ich habe keine Erfahrung mit dieser Art von Anwendung.
Bitte erleuchten !!!
Dies ist ein ebenso guter Ausgangspunkt wie jeder: Ссылка
Es ist ein Open-Source-Software-Framework für die Audioverarbeitung. Sie haben eine Reihe von Projekten aufgelistet, die ihr Framework auf verschiedene Arten verwendet haben, sodass Sie sich wahrscheinlich davon inspirieren lassen können. Ссылка . Insbesondere das Telligence-Projekt scheint Ihren Bedürfnissen am nächsten zu sein, da es zur Klassifizierung von Audio verwendet wurde: Ссылка
Es gibt zwei Schritte zu einem Projekt wie diesem, glaube ich:
Der erste Schritt wäre, die Stimme von einem analogen Eingang in ein digitales Format aufzunehmen (nehmen wir wav-pcm an). Dazu können Sie DirectShow-API in C # oder Standard-Wav-In wie in diesem Projekt verwenden: Ссылка . Sie können später erwägen, Ihre Audiodateien zu komprimieren. Dafür gibt es viele Optionen. In Windows können Sie Windows Media Format SDK in Betracht ziehen, um Lizenzprobleme mit anderen Formaten zu vermeiden.
Der zweite Schritt besteht darin, ein Framework zur Spracherkennung zu erstellen oder zu verwenden. Wenn Sie ein Erkennungsframework erstellen möchten, müssen Sie wahrscheinlich eine Reihe von "Features" für Ihre Soundfragmente definieren und einen Erkennungsalgorithmus auswählen. Es gibt viele Möglichkeiten, IEEE und ACM.org Webstile sind in der Regel gute Quellen. Wenn Sie ein vorhandenes Framework verwenden möchten, sollten Sie Nuance Recognizer (kommerziell) oder Ссылка (Open Source) in Erwägung ziehen.
Hoffe, das hilft.
Tags und Links security speech-recognition speech-to-text analog-digital-converter