Objetivos

Estimar, de maneira síncrona, o pulso glotal de Rosenberg [1] que melhor aproxima temporalmente o pulso do sinal de voz, utilizando um banco de pulsos glotais e comparando o espectro de cada um dos pulsos com o espectro de um sinal de voz. Assim, é feito o uso de sinais de voz sintetizados, de acordo com a metodologia apresentada no relatório anterior, para a verificação dos resultados. Espera-se que o pulso glotal seja estimado perfeitamente para esses sinais sintetizados.

Metodologia

Modelo de Rosenberg para o pulso glotal

O modelo para o pulso glotal de Rosenberg [1] é dado pela seguinte expressão [2]:

(1)   \begin{equation*} g[n]=\begin{cases} \frac{1}{2}\left(1-cos\left(\frac{\pi n}{N_1} \right) \right), & 0\leq n \leq N_1\\\\ cos\left(\frac{\pi\left(n-N_1\right)}{2 N_2} \right), & N_1\leq n \leq N_1+N_2\\ 0, & \text{para os demais casos} \end{cases} \end{equation*}

em que N_1 e N_2 modelam o tempo de abertura e de fechamento da glote, respectivamente, como ilustrado na Figura 1. Comumente, na literatura, N_1>N_2.

Figura 1 – Pulso glotal de Rosenberg

Estimação de frequência fundamental por autocorrelação

Para a estimação de frequência fundamental (f_0) baseada na autocorrelação do sinal, dado um sinal digitalizado x[k], a função de autocorrelação empírica \phi[k] de um sinal pode ser definida como segue [2]:

(2)   \begin{equation*} \phi[k]=\sum_{m=-\infty}^{\infty} {x[m]x[m+k]} \end{equation*}

em que se pode inferir que o valor máximo da função de autocorrelação é atingido quando k=0. Também se faz notável que, para sinais periódicos, a função de autocorrelação do sinal apresenta a propriedade de manter-se periódica, com o mesmo período do sinal. Isso indica que para k=nP (em que P é o período e n é um número inteiro qualquer), \phi[0]=\phi[k], sugerindo, assim, que a cada ciclo o valor máximo da função de autocorrelação é atingido. Assim, a estimação de f_0 é feita por meio dessas propriedades para encontrar o período P do sinal e, consequentemente, a frequência fundamental do sinal.

Método para a estimação do pulso glotal

O processo proposto para a estimação do pulso glotal utiliza a frequência fundamental do sinal analisado, obtida por meio da autocorrelação do sinal, para gerar o banco de pulsos. Com o valor estimado da f_0 foi possível determinar o tamanho do pulso, em amostras, N_G (N_G=\frac{1}{f_0}). Assim o banco de pulsos foi então gerado assumindo, empiricamente, que N_G\geq N_1+N_2, round(0.3\cdot N_G)\leq N_1 \leq N_G-1 e round(0.1\cdot N_G)\leq N_2 \leq N_G-N_1.

Calculando os espectros por FFT (Fast Fourier Transform) [3], o espectro de cada pulso do banco é comparado ao espectro do sinal de entrada por meio do erro quadrático médio. Levando em conta a resposta espectral do pulso de Rosenberg, espera-se que o pulso que apresentar o menor erro indicará o que melhor aproxima o pulso real.

Verificação dos resultados

Para verificar a acurácia do método implementado, foram utilizados sinais sintetizados de acordo com a metodologia proposta no relatório anterior. Assim, foi feita a comparação entre o pulso estimado e o pulso utilizado para a síntese.

Resultados

A implementação do método proposto ainda não está completa, de forma que existem alguns problemas a serem resolvidos. Os resultados preliminares se mostraram inadequados, como pode ser observado na Figura 2.

Figura 2 – Resultado atual da estimação

Conclusão e Próxima Etapa

Uma averiguação mais detalhada da implementação é necessária para que seja possível a obtenção de bons resultados com o método proposto. Assim, a próxima etapa dará continuidade a esse método, buscando solucionar os problemas encontrados. Caso os resultados com os sinais sintetizados se apresentem adequados, será feita, também, a comparação com sinais reais de voz que possuam seus respectivos sinais eletroglotográficos [4].

 

[1] A. E. Rosenberg, “Effect of glottal pulse shape on the quality of natural vowels,” The journal of the acoustical society of america, vol. 49, iss. 2B, p. 583–590, 1971.
[Bibtex]
@article{rosenberg1971effect,
title={Effect of glottal pulse shape on the quality of natural vowels},
author={Rosenberg, Aaron E},
journal={The Journal of the Acoustical Society of America},
volume={49},
number={2B},
pages={583--590},
year={1971},
publisher={ASA}
}
[2] L. R. Rabiner and R. W. Schafer, Digital processing of speech signals, Prentice-Hall, 1978.
[Bibtex]
@book{Rabiner1978,
author = {Rabiner, Lawrence R and Schafer, Ronald W},
isbn = {0-13-213603-1},
pages = {1--512},
publisher = {Prentice-Hall},
title = {{Digital processing of speech signals}},
year = {1978}
}
[3] J. H. McClellan, R. W. Schafer, and M. A. Yoder, Signal processing first, Pearson education Upper Saddle River, NJ, 2003.
[Bibtex]
@book{mcclellan2003signal,
title={Signal processing first},
author={McClellan, James H and Schafer, Ronald W and Yoder, Mark A},
year={2003},
publisher={Pearson education Upper Saddle River, NJ}
}
[4] C. T. Ferrand, Speech science: an integrated approach to theory and clinical practice, Allyn & Bacon, 2001.
[Bibtex]
@book{ferrand2001speech,
title={Speech science: an integrated approach to theory and clinical practice },
author={Ferrand, Carole T},
year={2001},
page={366},
publisher={Allyn \& Bacon}
}
Sobre o Autor

Mestrando em Engenharia Elétrica e Bacharel em Engenharia Eletrônica pela Universidade Federal de Sergipe. Interessado nas áreas de Processamento Digital de Sinais, Processamento Digital da Fala e Reconhecimento de Padrões. Atualmente desenvolve pesquisa no campo de processamento digital de sinais de fala aplicados à fonoaudiologia e à saúde vocal.

Áreas de Pesquisa: Processamento Digital de Sinais, Reconhecimento de Padrões, Processamento de Sinais de Voz e Fala, Qualidade Vocal.

Sobre o Autor

Estudante de Graduação em Engenharia Eletrônica na Universidade Federal de Sergipe. Áreas de interesse são Processamento Digital de Sinais, Processamento Digital da Fala e Reconhecimento de Padrões.

Sobre o Autor

Estudante de Graduação em Engenharia Eletrônica na Universidade Federal de Sergipe. Interessado nas áreas de Processamento Digital de Sinais, Processamento Digital da Fala e Reconhecimento de Padrões

Deixe uma resposta

O seu endereço de e-mail não será publicado.

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.