Assim como prometido em nosso último relato, traremos aqui uma apresentação mais detalhada do modelo de Liljencrants-Fant (LF) [1]. Ora, o modelo LF surge a partir da junção do modelo de Liljencrats com o modelo de Fant, acrescidos do uso de uma fase de retorno, com proposto por Ananthapadmabha1 [2].

Durante a preparação desse relatório, pudemos perceber que esse modelo possui uma estrutura mais complexa (tanto para o entendimento quanto para a implementação) do que o modelo de Rosenberg [3]2. Entretanto, o modelo LF se ajusta melhor à sinais de voz de diferentes condições e se adequa melhor com fluxo glotal real, o que justifica seu uso. Veremos a seguir a estrutura do modelo de Liljencrants-Fant, seus parâmetros, as maneiras de usá-lo e suas principais propriedades.

O Modelo LF

O Modelo LF fornece um modelo do fluxo glotal definindo a forma de onda da sua derivada. Essa forma de onda é dada pela seguinte expressão:

(1)   \begin{equation*} g_{LF}(t) = \begin{cases} E_0e^{\alpha t}\sin(\omega_gt),\ 0\leq t<T_e\\-\frac{E_e}{\epsilon T_a}\left( e^{-\epsilon(t-T_e)}-e^{-\epsilon(T_c-T_e)}\right),\ T_e\leq t<T_c\end{cases} \end{equation*}

onde T_e é o instante em que a onda que está com uma amplitude E_e deixa de ser uma onda senoidal com frequência w_g e com fator de crescimento exponencial positivo \alpha, para ser definida por uma exponencial que vai dessa derivada de fluxo negativa até o fim do pulso em T_c. Aqui, T_a representa o tempo efetivo de retorno do pulso, i.e., a duração de tempo que leva para uma reta, cuja inclinação é dada pela derivada da onda em T_e, sair de E_e e chegar em 03.

Um ciclo completo de onda da derivada do fluxo glotal e do fluxo glotal estão ilustrados na Figura 1 e na Figura 2, respectivamente, onde T_i é o instante onde ocorre o pico da derivada, T_p é o instante onde a derivada começa a ficar negativa (onde o fluxo glotal antinge seu pico), T_e é o instante onde a derivada passa a ser descrita pela exponencial de retorno e T_e +T_a o instante onde a reta com a inclinação do instante T_e toca o eixo das abcissas.

Figura 1 – Ciclo completo da derivada do fluxo glotal
Figura 2 – Ciclo completo do fluxo glotal

O trecho do modelo LF para o tempo de 0 a T_e é denominado de Primeira Fase. Nela ocorre a abertura do pulso glotal e é acrescentada ao sinal a influência da, assim denominada, formante glotal, com frequência F_g=\frac{\omega_g}{2\pi} e banda passante \alpha. Já o trecho entre T_e e o final do pulso, em T_c = T_0, é denominada Fase de Retorno. Nessa fase a glote conclui seu fechamento de maneira amortecida, acrescentando ao sinal o efeito de um filto passa-baixas com frequência de corte F_a=\frac{1}{2\pi T_a}4.

Escolha dos Parâmetros

Usualmente o modelo LF é definido com um conjunto de 5 parâmetros, mas existem várias combinações possíveis desses parâmetros. Uma possibilidade é utilizar os parâmetros da síntese direta ({E_o}, {\alpha}, {\omega_g}, {T_a}, e {F_o}). Alternativamente, pode-se utilizar E_e, T_p, T_e ,T_a e T_o que são os parâmetros que aparecem naturalmente pelo processo da filtragem inversa. Esse conjunto está diretamente relacionado a um conjunto de parâmetros normalizados definidos por R_g, R_a, R_k, E_e e F_o 5, em que:

(2)   \begin{equation*} R_g=\frac{F_g}{F_o}, R_a=\frac{T_a}{T_o}, R_k=\frac{T_e}{T_p}-1; \end{equation*}

R_g relaciona a frequência glotal (ou formante glotal) com a frequência fundamental (F_0), R_a é o termo T_a normalizado por T_o e R_k representa o fator de inclinação definido pela proximidade entre T_e e T_p.

Para uma representação mais direta dos aspectos visuais do fluxo glotal e restrições da produção vocal, outra abordagem consiste em utilizar E_e/E_i ou U_o/E_e ou E_e/U_o no lugar do R_k e para o acompanhamento direto dos aspectos no domínio da frequência, usa-se F_a em vez de R_a.

Comportamento do Modelo LF

No artigo em que o modelo LF foi proposto (Fant et al. [1]), bem como em Fant & Lin [4] e em Fant [5] foram apresentadas propriedades do modelo LF, que definem suas características (espectrais e temporais) de acordo com os parâmetros utilizados para sua síntese.

Pra analisar o comportamento do modelo LF no tempo e na frequência, afim de verificar suas propriedades, sintetizamos o sinal do pulso glotal e do pulso glotal derivativo para diversos valores dos parâmetros definidos em 2, utilizando F_0=120 \text{Hz}, Ee=0.1 e freq. de amostragem f_s=8000\ \text{amostras/s}6. Foram tomados como base os parâmetros utilizados no Alku et al. [6] no OpenGlot para a fonação modal (R_a=0.01R_g=1.17R_k=0.34), variando cada um dos três parâmetros, individualmente, por vez. Assim, analisamos o efeito no formato de onda e no espectro dos pulsos com a variação dos parâmetros.

Para ir além da visualização gráfica do pulso no tempo e no espectro, também foram sintetizados sinais de voz com os conjuntos de parâmetros utilizados na análise temporal-espectral. Optou-se por utilizar valores de formantes equivalente à vogal /a/ (F_1=730F_2=1090F_3=2440).

Inicialmente, verificamos o efeito da variação dos valores de R_a mantendo os demais valores constantes. Como T_0 é mantido constante, temos que a alteração de R_a modifica os valores de T_a (e, por consequência, de F_a). Na Figura 3 o pulso glotal e o pulso glotal derivativo no tempo com a variação de R_a são ilustrados. O valor de R_a apresenta uma forte influência no valor do pico do pulso glotal (U_0). O espectro do pulso derivativo é ilustrado na Figura 4. É possível observar a influência do filtro passa baixas se alterando com o aumento de R_a, de forma que sua frequência de corte (F_a) se reduz.

Figura 3 – Efeito da variação de R_a no tempo
Figura 4 – Efeito da variação de R_a na frequência

Sinais de voz com variação de R_a:

 

Analisamos, em seguida, os efeitos da variaçao de R_g, fixando os demais parâmetros nos valores do modal. Como F_0 é mantida constante, a alteração de R_g causa uma alteração diretamente proporcional em F_g. É possível visualizar, na Figura 5 o efeito exercido pela alteração de R_g, de modo que sua variação influência o valor de U_0 e o local em que ele ocorre. A variação de R_g altera a formante glotal, de forma que aumentando o seu valor, há uma tendência ao reforço de dos segundo e terceiro harmônicos. Para valores mais altos de R_g (tipicamente, R_g apresenta valores entre 0.7 e 1.6), o segundo harmônico tende a ser mais forte do que a fundamental, como pode ser observado na Figura 6.

Figura 5 – Efeito da variação de R_g no tempo
Figura 6 – Efeito da variação de R_g na frequência

Sinais de voz com variação de R_g:

 

Por fim, observamos a influência da variação do R_k, mantendo intocados em seus valores modais os demais parâmetros. Devido à constância de F_0 e de R_g, os valores de T_e e T_p são variados de acordo com a variação de R_k. Na Figura 7 podemos verificar a influência exercida por R_k no valor de U_0. Verificamos que o efeito de R_k no espectro é de difícil visualização gráfica. Entretanto, analisando a proporção entre o primeiro harmônico (frequência fundamental) e os demais harmônicos do sinal, podemos observar que o aumento de R_k aumenta a intensidade de F_0 relativamente ao restante do espectro7, como pode ser observado na Figura 8.

Figura 7 – Efeito da variação de R_k no tempo
Figura 8 – Efeito da variação de R_k na proporção entre a frequência fundamental e seus harmônicos

Sinais de voz com variação de R_k:

 

Próximas Etapas

Para a continuidade do estudo da estimação de pulso glotal, nos dividiremos para estudar, implementar e relatar o desempenho de métodos presentes na literatura, que se baseiam no modelo LF. A saber, a primeira rodada de implementações vai conter os métodos propostos por Bozkurt et al. [7]8, Cinnéide et al. [8]9 e Dias & Ferreira [9]10.11


FANT[ASMA]:  Jurem!
[…]
HORÁCIO: Ó dia, ó noite! Isso é espantosamente estranho!
HAMLET: Portanto, como estranho, deve ser bem recebido. Há mais coisas no modelo Liljencrants-Fant, Horácio, do que sonha a tua filosofia. Mas, vamos lá; aqui, como antes, nunca, com a ajuda de Deus,
(William Shakespeare [Hamlet] sobre o Modelo LF)

[1] G. Fant, J. Liljencrants, and Q. Lin, “A four-parameter model of glottal flow,” Stl-qpsr, vol. 4, iss. 1985, p. 1–13, 1985.
[Bibtex]
@article{fant1985four,
title={A four-parameter model of glottal flow},
author={Fant, Gunnar and Liljencrants, Johan and Lin, Qi-guang},
journal={STL-QPSR},
volume={4},
number={1985},
pages={1--13},
year={1985},
publisher={Citeseer}
}
[2] T. Ananthapadmanabha, “Acoustic analysis of voice source dynamics,” Stl-qpsr, vol. 2, iss. 3, p. 1–24, 1984.
[Bibtex]
@article{ananthapadmanabha1984acoustic,
title={Acoustic analysis of voice source dynamics},
author={Ananthapadmanabha, TV},
journal={STL-QPSR},
volume={2},
number={3},
pages={1--24},
year={1984},
publisher={Citeseer}
}
[3] A. E. Rosenberg, “Effect of glottal pulse shape on the quality of natural vowels,” The journal of the acoustical society of america, vol. 49, iss. 2B, p. 583–590, 1971.
[Bibtex]
@article{rosenberg1971effect,
title={Effect of glottal pulse shape on the quality of natural vowels},
author={Rosenberg, Aaron E},
journal={The Journal of the Acoustical Society of America},
volume={49},
number={2B},
pages={583--590},
year={1971},
publisher={ASA}
}
[4] G. Fant and Q. Lin, “Frequency domain interpretation and derivation of glottal flow parameters,” Stl-qpsr, vol. 29, iss. 2-3, p. 1–21, 1988.
[Bibtex]
@article{fant1988frequency,
title={Frequency domain interpretation and derivation of glottal flow parameters},
author={Fant, Gunnar and Lin, Q},
journal={STL-QPSR},
volume={29},
number={2-3},
pages={1--21},
year={1988}
}
[5] G. Fant, “The lf-model revisited. transformations and frequency domain analysis,” Speech trans. lab. q. rep., royal inst. of tech. stockholm, vol. 2, iss. 3, p. 40, 1995.
[Bibtex]
@article{fant1995lf,
title={The LF-model revisited. Transformations and frequency domain analysis},
author={Fant, Gunnar},
journal={Speech Trans. Lab. Q. Rep., Royal Inst. of Tech. Stockholm},
volume={2},
number={3},
pages={40},
year={1995}
}
[6] P. Alku, T. Murtola, J. Malinen, J. Kuortti, B. Story, M. Airaksinen, M. Salmi, E. Vilkman, and A. Geneid, “Openglot–an open environment for the evaluation of glottal inverse filtering,” Speech communication, vol. 107, p. 38–47, 2019.
[Bibtex]
@article{alku2019openglot,
title={OPENGLOT--An open environment for the evaluation of glottal inverse filtering},
author={Alku, Paavo and Murtola, Tiina and Malinen, Jarmo and Kuortti, Juha and Story, Brad and Airaksinen, Manu and Salmi, Mika and Vilkman, Erkki and Geneid, Ahmed},
journal={Speech Communication},
volume={107},
pages={38--47},
year={2019},
publisher={Elsevier}
}
[7] B. Bozkurt, B. Doval, C. d’Alessandro, and T. Dutoit, “Zeros of z-transform representation with application to source-filter separation in speech,” Ieee signal processing letters, vol. 12, iss. 4, p. 344–347, 2005.
[Bibtex]
@article{bozkurt2005zeros,
title={Zeros of z-transform representation with application to source-filter separation in speech},
author={Bozkurt, Baris and Doval, Boris and d'Alessandro, Christophe and Dutoit, Thierry},
journal={IEEE signal processing letters},
volume={12},
number={4},
pages={344--347},
year={2005},
publisher={IEEE}
}
[8] A. O. Cinnéide, D. Dorran, M. Gainza, and E. Coyle, “Exploiting glottal formant parameters for glottal inverse filtering and parameterization,” in Eleventh annual conference of the international speech communication association, 2010.
[Bibtex]
@inproceedings{cinneide2010exploiting,
title={Exploiting glottal formant parameters for glottal inverse filtering and parameterization},
author={Cinn{\'e}ide, Alan O and Dorran, David and Gainza, Mikel and Coyle, Eugene},
booktitle={Eleventh Annual Conference of the International Speech Communication Association},
year={2010}
}
[9] S. Dias and A. Ferreira, “Glottal pulse estimation–a frequency domain approach,” Unpublished, 2014.
[Bibtex]
@article{dias2014glottal,
title={Glottal pulse estimation--a frequency domain approach},
author={Dias, Sandra and Ferreira, An{\i}bal},
journal={Unpublished},
year={2014},
url={https://pdfs.semanticscholar.org/1fc5/76a4e821f75779d2c01085cdaac1db9935b9.pdf}
}
Sobre o Autor

Mestrando em Engenharia Elétrica e Bacharel em Engenharia Eletrônica pela Universidade Federal de Sergipe. Interessado nas áreas de Processamento Digital de Sinais, Processamento Digital da Fala e Reconhecimento de Padrões. Atualmente desenvolve pesquisa no campo de processamento digital de sinais de fala aplicados à fonoaudiologia e à saúde vocal.

Áreas de Pesquisa: Processamento Digital de Sinais, Reconhecimento de Padrões, Processamento de Sinais de Voz e Fala, Qualidade Vocal.

Sobre o Autor

Estudante de Graduação em Engenharia Eletrônica na Universidade Federal de Sergipe. Áreas de interesse são Processamento Digital de Sinais, Processamento Digital da Fala e Reconhecimento de Padrões.

Sobre o Autor

Estudante de Graduação em Engenharia Eletrônica na Universidade Federal de Sergipe. Interessado nas áreas de Processamento Digital de Sinais, Processamento Digital da Fala e Reconhecimento de Padrões

  1. Sujeito este dotado de um pequeno e comum sobrenome
  2. De tal maneira que duas semanas foram empregadas, pois, na árdua composição desse relatório, que só foi concluído então nos últimos momentos possíveis para o seu envio
  3. Ó dia, ó noite! Isso é espantosamente estranho!
  4. Portanto, como estranho, deve ser bem recebido
  5. Utilizá-los-emos para que seja realizada a análise das propriedades fornecidas pelo modelo
  6. Vede pois que não escrevemos Hertz. Egregiamente, expressamos da maneira adequada a frequência de amostragem. De forma alguma agimos em pusilânimidade diante de alguma possível reação belicosa por meio da professora Raíssa
  7. Que se enfatize, pois, que não necessariamente ocorrerá um aumento na intensidade do primeiro harmônico, porém certamente haverá uma redução na intensidade dos demais harmônicos
  8. João Marcus
  9. Vitor Magno
  10. Jônatas
  11. Vocês não devem jamais, me vendo em tais momentos, cruzar os braços assim, mexer a cabeça assim, ou pronunciar frases suspeitas, como “Ora, ora, eu já sabia”, ou “Se nós quisessemos, podíamos”, ou “Se tivéssemos vontade de, quem sabe?”, ou “Existem os que, se pudessem…”, ou ambigüidades que tais pra darem a entender que conhecem segredos meus. Não façam nada disso, e a graça e a misericórdia os assistirão quando necessitarem. Jurem.

Deixe uma resposta

O seu endereço de e-mail não será publicado.

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.