Voz
Por Jônatas Cruz Santos, João Marcus Silveira & Vitor Magno Bezerra

Objetivos

Analisar os resultados das implementações realizadas do algoritmo IAIF, do método de estimação utilizando análise-pela-síntese e pulso glotal de Rosenberg (apresentado por Jugurta, no último relatório) e da implementação original do IAIF (disponível em um toolbox, denominado Aparat). Utilizando um sinal sintetizado, os parâmetros temporais dos sinais estimados para cada implementação serão comparados com os parâmetros do sinal original. Com isso, será observar a precisão dos resultados obtidos para cada implementação.

Metodologia

Modelo de Rosenberg para o pulso glotal

O modelo para o pulso glotal de Rosenberg [1] é dado pela seguinte expressão [2]:

(1)   \begin{equation*} g[n]=\begin{cases} \frac{1}{2}\left(1-cos\left(\frac{\pi n}{N_1} \right) \right), & 0\leq n \leq N_1\\\\ cos\left(\frac{\pi\left(n-N_1\right)}{2 N_2} \right), & N_1\leq n \leq N_1+N_2\\ 0, & \text{para os demais casos} \end{cases} \end{equation*}

em que N_1 e N_2 modelam o tempo de abertura e de fechamento da glote. Comumente, na literatura, N_1>N_2. Para averiguar os resultados, os valores de N_1 e N_2 serão comparados.

Síntese do Sinal

O processo para a síntese do sinal utilizou o pulso glotal de Rosenberg como fonte glótica e ajustou o trato vocal para as formantes correspondentes à vogal /a/, de acordo com a metodologia apresentada no Relatório nº2.

IAIF

O IAIF [3] foi implementado de acordo com a metodologia apresentada no Relatório nº1 e ilustrado na Figura 1.

Figura 1 – Diagrama de blocos do IAIF

Resultados Obtidos

Para o teste dos três métodos(IAIF do Aparat, análise-pela-síntese e o algoritmo IAIF implementado) foram utilizados dois sinais sintetizados, cujos parâmetros para a síntese foram: f_0=300Hz, N_1=19, N_2=18 para o sinal 1 e f_0=205Hz, N_1=36, N_2=18 para o sinal 2. Os principais parâmetros utilizados para a análise foram o N1 e o N2, visando encontrar o método que melhor estima o pulso glotal que se aproxima do pulso de rosenberg utilizado na síntese. A ordem dos preditores lineares no algoritmo implementado do IAIF, foram v=12 e g=4, para o sinal 1, este método estimou corretamente o N_1 e o N_2, porém, para o sinal 2, o N_1 e N_2 encontrados foram 32 e 22, respectivamente. As configurações utilizadas no Aparat foram g=2, número de formantes igual a 3, coeficiente da radiação dos lábios igual a 0.99, para o sinal 1 foram encontrados N_1=22 e N_2=15, e para o sinal 2, N_1=32 e N_2=22. A análise-pela-síntese estimou N_1=24 e N_2=13 para o sinal 1, e N_1=36 e N_2=18 para o sinal 2.

Conclusão e Próxima Etapa

Os testes se mostraram inconclusivos, pois para o sinal 1 o algoritmo implementado do IAIF apresentou o melhor resultado enquanto o método de análise-pela-síntese foi o pior, porém para o sinal 2 a situação foi a inversa, isto é, análise-pela-síntese apresentou o melhor resultado e o algoritmo IAIF foi o pior. O Aparat obteve resultados ruins em ambos os sinais, mas isso pode ser devido as configurações utilizadas no programa. Assim, é necessário realizar mais testes com os três métodos, fazendo algumas modificações para encontrar as configurações que melhor estimam o pulso glotal do sinal sintetizado. Vale ressaltar que o IAIF implementado possui alguns bugs que tornam os resultados obtidos por este método não confiáveis.

[1] A. E. Rosenberg, “Effect of glottal pulse shape on the quality of natural vowels,” The journal of the acoustical society of america, vol. 49, iss. 2B, p. 583–590, 1971.
[Bibtex]
@article{rosenberg1971effect,
title={Effect of glottal pulse shape on the quality of natural vowels},
author={Rosenberg, Aaron E},
journal={The Journal of the Acoustical Society of America},
volume={49},
number={2B},
pages={583--590},
year={1971},
publisher={ASA}
}
[2] L. R. Rabiner and R. W. Schafer, Digital processing of speech signals, Prentice-Hall, 1978.
[Bibtex]
@book{Rabiner1978,
author = {Rabiner, Lawrence R and Schafer, Ronald W},
isbn = {0-13-213603-1},
pages = {1--512},
publisher = {Prentice-Hall},
title = {{Digital processing of speech signals}},
year = {1978}
}
[3] P. Alku, E. Vilkman, and U. Laine, “Analysis of glottal waveform in different phonation types using the new iaif-method,” in Proc. 12th int. congress phonetic sciences, 1991, p. 362–365.
[Bibtex]
@inproceedings{alku1991analysis,
title={Analysis of glottal waveform in different phonation types using the new IAIF-method},
author={Alku, P and Vilkman, E and Laine, UK},
booktitle={Proc. 12th Int. Congress Phonetic Sciences},
volume={4},
pages={362--365},
year={1991}
}
Sobre o Autor

Mestrando em Engenharia Elétrica e Bacharel em Engenharia Eletrônica pela Universidade Federal de Sergipe. Interessado nas áreas de Processamento Digital de Sinais, Processamento Digital da Fala e Reconhecimento de Padrões. Atualmente desenvolve pesquisa no campo de processamento digital de sinais de fala aplicados à fonoaudiologia e à saúde vocal.

Áreas de Pesquisa: Processamento Digital de Sinais, Reconhecimento de Padrões, Processamento de Sinais de Voz e Fala, Qualidade Vocal.

Sobre o Autor

Estudante de Graduação em Engenharia Eletrônica na Universidade Federal de Sergipe. Áreas de interesse são Processamento Digital de Sinais, Processamento Digital da Fala e Reconhecimento de Padrões.

Sobre o Autor

Estudante de Graduação em Engenharia Eletrônica na Universidade Federal de Sergipe. Interessado nas áreas de Processamento Digital de Sinais, Processamento Digital da Fala e Reconhecimento de Padrões

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *