Zusammenfassung
Bei der automatischen Erkennung von Sprache führt es häufig zu Problemen, wenn der verwendete Wortschatz eine zu hohe Varianz in der Aussprachegeschwindigkeit aufweist. Diese natürlichen Schwankungen betreffen sowohl die gesamte Länge einer Äußerung als auch lokale Übergänge im Silben- und Phonembereich. In einer früheren Veröffentlichung wurde ein gehörorientiertes Sprachverarbeitungsmodell vorgestellt, das ein kurzes isoliert gesprochenes Wort unabhängig von seiner exakten Dauer auf einen Merkmalsvektor fester Länge abbildet [3]. Ein wesentliches Merkmal dieses Modells ist die Transformation des Zeitsignals in den Modulationsfrequenzbereich, eine Darstellung, wie sie auch entlang der Hörbahn im auditorischen System von Säugetieren und Vögeln nachgewiesen wurde. Das konstante Format des Merkmalsvektors wird erreicht durch eine zeitliche Integration der miteinander korrelierten Kanäle des Modulationsspektrogramms. Diese Methode kann unter Umständen zum Verlust der Eindeutigkeit eines Wortes führen, etwa wenn sich zwei Äußerungen lediglich in der Reihenfolge ihrer Phoneme unterscheiden.
In der folgenden Untersuchung wird anhand eines speziellen Wortschatzes gezeigt, daß das Modell robust ist gegen Vertauschung von Silben, Vokalen und Konsonanten. In drei Erkennungsexperimenten mit sechzehn Wörtern, die lediglich aus drei Vokalen und drei Konsonanten zusammengesetzt sind, wurde jeweils nur ein Wort falsch erkannt.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Preview
Unable to display preview. Download preview PDF.
Similar content being viewed by others
Literatur
Haggard M. (1985) „Temporal patterning in speech: the implications of temporal resolution and signal-processing“in: Time resolution in auditory systems, Hrsg. A. Michelsen, Springer, Berlin: 215–237
Koch R., Püschel D., Kollmeier B. (1991) „Simulation des Cocktail-Party-Effekts: Störgeräuschreduktion in räumlichen Hörsituationen mit Hilfe binauraler Modulations-Spektren“in: Fortschritte der Akustik — DAGA 1991, DPG-GmbH, Bad Honnef: 797–800
Paping M. (1992) „Verwendung von Modulationsmerkmalen bei der automatischen Spracherkennung“in: Fortschritte der Akustik — DAGA 1992, DPG-GmbH, Bad Honnef (im Druck)
Rees A., Møller A. (1987) „Stimulus properties influencing the responses of inferior colliculus neurons to amplitude-modulated sounds“, Hearing Research 27: 129–143
Rees A., Palmer A.R. (1989) „Neuronal responses to amplitude-modulated and pure-tone stimuli in the guinea pig inferior colliculus, and their modification by broadband noise“, J. Acoust. Soc. Am. 85: 1987–1994
Schreiner C.E., Langner G. (1988) „Coding of temporal patterns in the central auditory nervous system“in: Auditory functions, Hrsg. Edelman, Gall, Cowan; Wiley, New York: 337–361
Steeneken H.J., Houtgast T. (1980) „A physical method for measuring speech-transmission quality“, J. Acoust. Soc. Am. 67: 318–326
Strube H.W. (1985) „A computationally efficient basilar-membrane model“, Acustica 58: 207–214
Author information
Authors and Affiliations
Editor information
Editors and Affiliations
Rights and permissions
Copyright information
© 1992 Springer-Verlag Berlin Heidelberg
About this paper
Cite this paper
Paping, M., Strube, H.W. (1992). Ein gehörorientierter Spracherkenner, der robust ist gegen zeitliche Schwankungen im Silben- und Phonembereich. In: Fuchs, S., Hoffmann, R. (eds) Mustererkennung 1992. Informatik aktuell. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-77785-1_30
Download citation
DOI: https://doi.org/10.1007/978-3-642-77785-1_30
Publisher Name: Springer, Berlin, Heidelberg
Print ISBN: 978-3-540-55936-8
Online ISBN: 978-3-642-77785-1
eBook Packages: Springer Book Archive