Objetivos

Estimar, de maneira síncrona, o pulso glotal de Rosenberg [1] que melhor aproxima temporalmente o pulso do sinal de voz, utilizando um banco de pulsos glotais e comparando o espectro de cada um dos pulsos com o espectro de um sinal de voz. Assim, é feito o uso de sinais de voz sintetizados, de acordo com a metodologia apresentada no relatório anterior, para a verificação dos resultados. Espera-se que o pulso glotal seja estimado perfeitamente para esses sinais sintetizados.

Metodologia

Modelo de Rosenberg para o pulso glotal

O modelo para o pulso glotal de Rosenberg [1] é dado pela seguinte expressão [2]:

(1)   \begin{equation*} g[n]=\begin{cases} \frac{1}{2}\left(1-cos\left(\frac{\pi n}{N_1} \right) \right), & 0\leq n \leq N_1\\\\ cos\left(\frac{\pi\left(n-N_1\right)}{2 N_2} \right), & N_1\leq n \leq N_1+N_2\\ 0, & \text{para os demais casos} \end{cases} \end{equation*}

em que N_1 e N_2 modelam o tempo de abertura e de fechamento da glote, respectivamente, como ilustrado na Figura 1. Comumente, na literatura, N_1>N_2.

Figura 1 – Pulso glotal de Rosenberg

Estimação de frequência fundamental por autocorrelação

Para a estimação de frequência fundamental (f_0) baseada na autocorrelação do sinal, dado um sinal digitalizado x[k], a função de autocorrelação empírica \phi[k] de um sinal pode ser definida como segue [2]:

(2)   \begin{equation*} \phi[k]=\sum_{m=-\infty}^{\infty} {x[m]x[m+k]} \end{equation*}

em que se pode inferir que o valor máximo da função de autocorrelação é atingido quando k=0. Também se faz notável que, para sinais periódicos, a função de autocorrelação do sinal apresenta a propriedade de manter-se periódica, com o mesmo período do sinal. Isso indica que para k=nP (em que P é o período e n é um número inteiro qualquer), \phi[0]=\phi[k], sugerindo, assim, que a cada ciclo o valor máximo da função de autocorrelação é atingido. Assim, a estimação de f_0 é feita por meio dessas propriedades para encontrar o período P do sinal e, consequentemente, a frequência fundamental do sinal.

Método para a estimação do pulso glotal

O processo proposto para a estimação do pulso glotal utiliza a frequência fundamental do sinal analisado, obtida por meio da autocorrelação do sinal, para gerar o banco de pulsos. Com o valor estimado da f_0 foi possível determinar o tamanho do pulso, em amostras, N_G (N_G=\frac{1}{f_0}). Assim o banco de pulsos foi então gerado assumindo, empiricamente, que N_G\geq N_1+N_2, round(0.3\cdot N_G)\leq N_1 \leq N_G-1 e round(0.1\cdot N_G)\leq N_2 \leq N_G-N_1.

Calculando os espectros por FFT (Fast Fourier Transform) [3], o espectro de cada pulso do banco é comparado ao espectro do sinal de entrada por meio do erro quadrático médio. Levando em conta a resposta espectral do pulso de Rosenberg, espera-se que o pulso que apresentar o menor erro indicará o que melhor aproxima o pulso real.

Verificação dos resultados

Para verificar a acurácia do método implementado, foram utilizados sinais sintetizados de acordo com a metodologia proposta no relatório anterior. Assim, foi feita a comparação entre o pulso estimado e o pulso utilizado para a síntese.

Resultados

A implementação do método proposto ainda não está completa, de forma que existem alguns problemas a serem resolvidos. Os resultados preliminares se mostraram inadequados, como pode ser observado na Figura 2.

Figura 2 – Resultado atual da estimação

Conclusão e Próxima Etapa

Uma averiguação mais detalhada da implementação é necessária para que seja possível a obtenção de bons resultados com o método proposto. Assim, a próxima etapa dará continuidade a esse método, buscando solucionar os problemas encontrados. Caso os resultados com os sinais sintetizados se apresentem adequados, será feita, também, a comparação com sinais reais de voz que possuam seus respectivos sinais eletroglotográficos [4].

 

[1] A. E. Rosenberg, “Effect of glottal pulse shape on the quality of natural vowels,” The journal of the acoustical society of america, vol. 49, iss. 2B, p. 583–590, 1971.
[Bibtex]
@article{rosenberg1971effect,
title={Effect of glottal pulse shape on the quality of natural vowels},
author={Rosenberg, Aaron E},
journal={The Journal of the Acoustical Society of America},
volume={49},
number={2B},
pages={583--590},
year={1971},
publisher={ASA}
}
[2] L. R. Rabiner and R. W. Schafer, Digital processing of speech signals, Prentice-Hall, 1978.
[Bibtex]
@book{Rabiner1978,
author = {Rabiner, Lawrence R and Schafer, Ronald W},
isbn = {0-13-213603-1},
pages = {1--512},
publisher = {Prentice-Hall},
title = {{Digital processing of speech signals}},
year = {1978}
}
[3] J. H. McClellan, R. W. Schafer, and M. A. Yoder, Signal processing first, Pearson education Upper Saddle River, NJ, 2003.
[Bibtex]
@book{mcclellan2003signal,
title={Signal processing first},
author={McClellan, James H and Schafer, Ronald W and Yoder, Mark A},
year={2003},
publisher={Pearson education Upper Saddle River, NJ}
}
[4] C. T. Ferrand, Speech science: an integrated approach to theory and clinical practice, Allyn & Bacon, 2001.
[Bibtex]
@book{ferrand2001speech,
title={Speech science: an integrated approach to theory and clinical practice },
author={Ferrand, Carole T},
year={2001},
page={366},
publisher={Allyn \& Bacon}
}
About the Author

Graduate Student in Electrical Engineering (Masters Degree) and Graduated in Electronic Engineering at Federal University of Sergipe - Brazil. Interested in Computational Modelling, Digital Signal Processing, Digital Processing of Speech and Patterns Recognition. Nowadays develops a research, computational models of voice production mechanisms.

Research Topics: Computational Modelling, Digital Signal Processing, Pattern Recognition, Voice and Speech Signal Processing, Voice Quality.

About the Author

Estudante de Graduação em Engenharia Eletrônica na Universidade Federal de Sergipe. Áreas de interesse são Processamento Digital de Sinais, Processamento Digital da Fala e Reconhecimento de Padrões.

About the Author

Estudante de Graduação em Engenharia Eletrônica na Universidade Federal de Sergipe. Interessado nas áreas de Processamento Digital de Sinais, Processamento Digital da Fala e Reconhecimento de Padrões

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

en_GBEnglish (UK)
pt_BRPortuguês do Brasil en_GBEnglish (UK)