Codificador de voz de fase - Phase vocoder

Un codificador de voz de fase es un tipo de algoritmo con propósito de codificador de voz que puede interpolar información presente en los dominios de frecuencia y tiempo de las señales de audio mediante el uso de información de fase extraída de una transformación de frecuencia. El algoritmo informático permite modificaciones en el dominio de la frecuencia en un archivo de sonido digital (normalmente expansión / compresión de tiempo y cambio de tono ).

En el corazón del codificador de voz de fase se encuentra la transformada de Fourier de corta duración (STFT), normalmente codificada utilizando transformadas rápidas de Fourier . El STFT convierte una representación del sonido en el dominio del tiempo en una representación del tiempo-frecuencia (la fase de "análisis"), permitiendo modificaciones en las amplitudes o fases de componentes de frecuencia específicos del sonido, antes de la resíntesis de la representación del dominio del tiempo-frecuencia en el tiempo. dominio por el STFT inverso. La evolución temporal del sonido resintetizado se puede cambiar modificando la posición temporal de los fotogramas STFT antes de la operación de resíntesis, lo que permite la modificación de la escala de tiempo del archivo de sonido original.

Problema de coherencia de fase

El principal problema que debe resolverse para todos los casos de manipulación del STFT es el hecho de que los componentes individuales de la señal (sinusoides, impulsos) se distribuirán en múltiples tramas y múltiples ubicaciones de frecuencia STFT (bins). Esto se debe a que el análisis STFT se realiza mediante ventanas de análisis superpuestas . El sistema de ventanas da como resultado una fuga espectral, de modo que la información de los componentes sinusoidales individuales se distribuye en contenedores STFT adyacentes. Para evitar los efectos de borde de la reducción de las ventanas de análisis, las ventanas de análisis STFT se superponen en el tiempo. Esta superposición de tiempo da como resultado el hecho de que los análisis STFT adyacentes están fuertemente correlacionados (una sinusoide presente en el cuadro de análisis en el momento "t" también estará presente en los cuadros posteriores). El problema de la transformación de la señal con el codificador de voz de fase está relacionado con el problema de que todas las modificaciones que se realizan en la representación STFT deben preservar la correlación adecuada entre los intervalos de frecuencia adyacentes (coherencia vertical) y los marcos de tiempo (coherencia horizontal). Excepto en el caso de sonidos sintéticos extremadamente simples, estas correlaciones apropiadas se pueden conservar solo aproximadamente, y desde la invención del codificador de voz de fase, la investigación se ha preocupado principalmente por encontrar algoritmos que preserven la coherencia vertical y horizontal de la representación STFT después de la modificación. . El problema de la coherencia de fases se investigó durante bastante tiempo antes de que surgieran las soluciones adecuadas.

Historia

El codificador de voz de fase fue introducido en 1966 por Flanagan como un algoritmo que preservaría la coherencia horizontal entre las fases de los bins que representan componentes sinusoidales. Este codificador de voz de fase original no tuvo en cuenta la coherencia vertical entre los contenedores de frecuencia adyacentes y, por lo tanto, el estiramiento del tiempo con este sistema produjo señales de sonido a las que les faltaba claridad.

La reconstrucción óptima de la señal de sonido de STFT después de modificaciones de amplitud ha sido propuesta por Griffin y Lim en 1984. Este algoritmo no considera el problema de producir un STFT coherente, pero sí permite encontrar la señal de sonido que tiene un STFT que es tan lo más cerca posible del STFT modificado incluso si el STFT modificado no es coherente (no representa ninguna señal).

El problema de la coherencia vertical siguió siendo un problema importante para la calidad de las operaciones de escalado de tiempo hasta 1999, cuando Laroche y Dolson propusieron un medio para preservar la coherencia de fase en todos los intervalos espectrales. La propuesta de Laroche y Dolson debe verse como un punto de inflexión en la historia de los codificadores de voz de fase. Se ha demostrado que asegurando la consistencia de la fase vertical se pueden obtener transformaciones de escalado de tiempo de muy alta calidad.

El algoritmo propuesto por Laroche no permitió la preservación de la coherencia de fase vertical para los inicios de sonido (inicios de nota). Roebel ha propuesto una solución a este problema.

Un ejemplo de implementación de software de transformación de señal basada en codificador de voz de fase utilizando medios similares a los descritos aquí para lograr una transformación de señal de alta calidad es el SuperVP de Ircam .

Usar en música

El compositor británico Trevor Wishart utilizó análisis de codificador de voz de fase y transformaciones de una voz humana como base para su composición Vox 5 (parte de su ciclo Vox más amplio ). Transfigured Wind del compositor estadounidense Roger Reynolds utiliza el codificador de voz de fase para realizar el estiramiento del tiempo de los sonidos de flauta. La música de JoAnn Kuchera-Morin hace algunos de los usos más tempranos y extensos de transformaciones de codificador de voz de fase, como en Dreampaths (1989).

Ver también

Referencias

enlaces externos