Modelo de filtro de fuente - Source–filter model

El modelo de filtro de fuente representa el habla como una combinación de una fuente de sonido, como las cuerdas vocales , y un filtro acústico lineal, el tracto vocal . Si bien es solo una aproximación, el modelo se usa ampliamente en varias aplicaciones, como la síntesis de voz y el análisis de voz , debido a su relativa simplicidad. También está relacionado con la predicción lineal . El desarrollo del modelo se debe, en gran parte, al trabajo inicial de Gunnar Fant , aunque otros, en particular Ken Stevens , también han contribuido sustancialmente a los modelos que subyacen al análisis acústico del habla y la síntesis del habla. Fant se basó en el trabajo de Tsutomu Chiba y Masato Kajiyama, quienes mostraron por primera vez la relación entre las propiedades acústicas de una vocal y la forma del tracto vocal.

Una suposición importante que se hace a menudo en el uso del modelo fuente-filtro es la independencia de la fuente y el filtro. En tales casos, el modelo debería denominarse con mayor precisión "modelo de fuente-filtro independiente".

Historia

En 1942, Chiba y Kajiyama publicaron su investigación sobre la acústica de las vocales y el tracto vocal en su libro, The Vowel: Its nature and structure . Al crear modelos del tracto vocal utilizando fotografías de rayos X , pudieron predecir las frecuencias formantes de diferentes vocales, estableciendo una relación entre las dos. Gunnar Fant, un científico del habla pionero, utilizó la investigación de Chiba y Kajiyama sobre la fotografía de rayos X del tracto vocal para interpretar sus propios datos de los sonidos del habla rusa en la Teoría acústica de la producción del habla , que estableció el modelo fuente-filtro.

Aplicaciones

En diversos grados, los diferentes fonemas se pueden distinguir por las propiedades de su (s) fuente (s) y su forma espectral . Los sonidos sonoros (p. Ej., Vocales) tienen al menos una fuente debido a la mayor parte de la excitación glotal periódica, que puede aproximarse mediante un tren de impulsos en el dominio del tiempo y por armónicos en el dominio de la frecuencia, y un filtro que depende, por ejemplo, de la lengua. posición y protuberancia del labio. Por otro lado, las fricativas , como [s] y [f] , tienen al menos una fuente debido al ruido turbulento producido en una constricción en la cavidad oral o faringe . Las llamadas fricativas sonoras , como [z] y [v] , tienen dos fuentes: una en la glotis y otra en la constricción supraglótica.

Síntesis de voz

En la implementación del modelo de fuente-filtro de producción de voz, la fuente de sonido, o señal de excitación, a menudo se modela como un tren de impulsos periódico, para voz sonora, o ruido blanco para voz sorda. El filtro del tracto vocal, en el caso más simple, se aproxima mediante un filtro de todos los polos, donde los coeficientes se obtienen realizando una predicción lineal para minimizar el error cuadrático medio en la señal de voz que se va a reproducir. La convolución de la señal de excitación con la respuesta del filtro produce entonces el habla sintetizada.

Modelado de la producción del habla humana

Una posible combinación de fuente y filtro en el tracto vocal humano.

En la producción del habla humana, la fuente de sonido son las cuerdas vocales , que pueden producir un sonido periódico cuando se contraen o un sonido aperiódico (ruido blanco) cuando se relajan. El filtro es el resto del tracto vocal, que puede cambiar de forma mediante la manipulación de la faringe , la boca y la cavidad nasal. Fant compara aproximadamente la fuente y el filtro con la fonación y la articulación , respectivamente. La fuente produce una serie de armónicos de amplitudes variables , que viajan a través del tracto vocal y se amplifican o atenúan para producir un sonido de habla.

Ver también

Referencias