Antes de prosseguir com o estudo do sinal glotal e em formas de estimá-lo, creio que seja justo pensar primeiro em formas objetivas de avaliar a qualidade da estimação. Pensando nessa perspectiva, me recordei que os resultados da estimação do IAIF nos primeiros relatórios que fiz com João Marcus foram, em sua maioria, puramente subjetivos e sempre baseados em uma pequena amostra de sinais. Além disso, quando sinais sintetizados foram foram utilizados para a análise da estimação, foi tomado como base o modelo de pulso glotal de Rosenberg. Diante desses fatos, fica o questionamento: Será que o IAIF foi injustiçado ao ser deixado de lado? Para que isso possa ser respondido, averiguei novamente o IAIF, de maneira mais apropriada, e apresento os resultados nesse relatório.

Mas afinal, como era mesmo esse IAIF?

Bem, recapitulando brevemente, o IAIF (Iterative Adaptative Inverse Filtering)[1] é um método proposto para estimação do pulso glotal que utiliza a predição linear e a filtragem inversa como parte de uma estrutura iterativa. Esse método, que já foi explicado em mais detalhes no primeiro relatório que escrevi com João, se encontra ilustrado na Figura 1.1

Figura 1 – Diagrama de Blocos do IAIF

Ah, lembrei! E o que foi feito para avaliar melhor a estimação?

Ora, com base no que mencionei anteriormente, primeiramente é necessário ter um conjunto de amostras (vulgo base de dados) de vozes sintetizadas, com seus respectivos pulsos glotais, ou vozes naturais, acompanhadas de alguma referência para a comparação. Felizmente, neste ano, uma base de dados, denominada OPENGLOT, foi disponibilizada e publicada por Alku et al. [2]2, e encontrada por Magno devido ao acaso3.

Em segundo lugar, também é necessário que hajam formas objetivas de medir o desempenho da estimação ao comparar o sinal glotal estimado com o sinal glotal original ou com os valores de referência. Os resultados serão avaliados, por questões de simplicidade, através do Signal-to-Noise Ratio (SNR). Também achei válido realizar novamente uma avaliação mais subjetiva e visual, como feita anteriormente, permitindo observar outras características qualitativas da estimação em alguns sinais exemplo. Porém, outras formas de avaliar os resultados, como a acurácia da parametrização glotal e da resposta em frequência do trato vocal, podem ser úteis e complementar uma análise quantitativa de estimadores de pulso glotal.

A seguir, descrevo melhor a base do OPENGLOT, apresentando seus 4 repositórios disponíveis. Logo após, apresento o cálculo utilizado para obter o SNR4.

A base do OPENGLOT

A base do OPENGLOT[2] (disponível em http://research.spa.aalto.fi/projects/openglot/) é dividida em quatro repositórios e contém amostras de voz sintetizada (acompanhadas do pulso original) e amostras de voz natural (acompanhadas do sinal eletroglotográfico e gravação de vídeo). A seguir, descrevo cada um dos repositórios do OPENGLOT.

– Repository I

No primeiro repositório do OPENGLOT são disponibilizadas 312 amostras de voz sintetizada utilizando o pulso glotal de Liljencrants-Fant[3]5 e um filtro composto somente por ressonâncias (polos), de acordo com o modelo fonte-filtro linear. Os sinais desse repositório foram sintetizados para 6 vogais (A, Æ, E, I, O e U), para 4 modos de fonação (normal, creaky6, breathy7, whispery8) e para valores de frequência fundamental de 100 a 360 Hz (em passos de 20 Hz).

Para sintetizar esses sinais,  o pulso glotal LF foi gerado com os parâmetros ajustados para cada um dos modos de fonação utilizados, de acordo com os dados publicados por Gobl[4], como ilustrado na Tabela 1. Foi feita em seguida uma filtragem iir utilizando 8 polos, de forma que 3 pares de polos proporcionaram aos sinais os valores das três primeiras formantes (f_1, f_2 e f_3) de cada vogal, definidos na Tabela 2, e o outro par de polos ocasionaram uma ressonância fixa em 3500 Hz. Cada arquivo desse repositório possui uma duração de 200ms.

Rendered by QuickLaTeX.com

Rendered by QuickLaTeX.com

Este repositório contém arquivos ‘.wav’, a uma taxa de 8000 amostras/s, de dois canais: no primeiro canal se encontra o sinal resultante da filtragem e no segundo canal está contido o pulso glotal utilizado como entrada. Na Figura 1 um exemplo de um arquivo do repositório é ilustrado, mostrando separadamente os sinais de cada canal. No áudio após a figura é possível escutar o sinal do primeiro canal do arquivo exemplificado, ou seja, o sinal de voz sintetizado.

Figura 1 – Ilustração de sinal do Repositório I do OPENGLOT, equivalente à vogal I, com o modo de fonação normal e à uma frequência fundamental de 220 Hz.

Nesse repositório, os códigos utilizados para a síntese do sinal (em MatLab9) são disponibilizados para download pelos autores.

– Repository II

No segundo repositório do OPENGLOT são disponibilizadas amostras de voz sintetizada de acordo com um modelo físico da produção vocal, de acordo com a metodologia apresentada no trabalho de Story[5]. Esse modelo inclui o espaço aéreo da traqueia, uma representação mecânica da vibração das cordas vocais e uma trato vocal que possa ser moldado para a produção de diferentes vogais. A traqueia e o trato vocal, nesse modelo, são representados por suas respectivas áreas transversais em função de sua distância para glote. Dessa maneira, o modelo considera a pressão subglótica e os efeitos de ressonância e de atenuação ocorridos no interior do trato vocal, com base em suas áreas transversais. Acoplada às pressões e fluxos de ar na traqueia, a área entre as pregas vocais oscila, com uma certa frequência fundamental, de acordo com o modelo cinemático empregado, provocando uma modulação do sinal que será ressonado ao longo do trato vocal. Dessa maneira, é considerada a propagação acústica na traqueia e no trato vocal, considerando suas respectivas áreas de seção transversal discretizadas como pequenos tubos cilindricos. Os valores de área do trato vocal foram obtidos e discretizados a partir de imagens de ressonância magnética de voluntários emitindo sons vocálicos.

Ainda irei estudar melhor esse procedimento, de modo que vou ficar devendo aqui uma explicação mais detalhada de como essa síntese é feita. Nesse repositório são disponibilizados 96 sinais, com duração de 1 segundo cada, sendo eles sintetizados para 4 vogais (A, Æ, I e U), para graus pequenos, médios e grandes de aducção glótica10 e para 4 diferentes valores de frequência fundamental. Os valores utilizados foram diferentes para vozes masculinas (82, 110, 156 e 220 Hz) e vozes femininas (175, 194, 220 e 294 Hz)11. As frequências fundamentais de todos os sinais gerados oscilam, no intervalo entre 0.3 e 0.7 segundos, de acordo com a seguinte sequência de eventos:

1. A frequência é incrementada até atingir 1.15f_0;

2. A frequência é decrementada até atingir 0.85f_0;

3. A frequência é incrementada até atingir seu valor original.

Com base nos valores das áreas dos tratos vocais obtidas, é possível calcular o valor das formantes para as diferentes vogais sintetizadas. Os valores das quatro primeiras formantes para cada vogal, diferenciadas entre as vozes masculinas e femininas, são ilustrados na Tabela 3.

Rendered by QuickLaTeX.com

Neste repositório um arquivo ‘.wav’, a uma taxa de 44100 amostras/s, com três canais é disponibilizado: no primeiro canal se encontra o sinal sintetizado, no segundo canal está contido o pulso glotal que gerou esse sinal e no terceiro canal o que se tem é o sinal da área entre as pregas vocais ao longo do tempo. Na Figura 2 um exemplo de um arquivo do repositório é ilustrado, mostrando separadamente os sinais de cada canal. No áudio após a figura é possível escutar o sinal do primeiro canal do arquivo exemplificado, ou seja, o sinal de voz sintetizado.

Figura 2 – Ilustração de sinal do Repositório II do OPENGLOT, equivalente à vogal I feminina, com o grau de aducção médio e à uma frequência fundamental de 220 Hz.

– Repository III

No terceiro repositório do OPENGLOT são disponibilizadas 287 amostras de voz gravadas a partir de um sistema com uma fonte acústica e tratos vocais impressos em 3D. Nesse sistema, a fonte acústica foi usada para reproduzir um pulso glotal sintético, de acordo com o modelo LF [3], no interior de um trato vocal impresso, sendo o sinal resultante captado por microfones na saída do trato impresso.

Os modelos para a impressão em 3D dos tratos vocais foram obtidos por meio de imagens de ressonância magnética de dois voluntários: um homem de 26 anos e uma mulher de 26 anos. Os tratos vocais impressos femininos são correspondentes a 3 vogais (A, E e I) e os masculinos correspondentes a 4 vogais (A, Æ, I e U). Para todos os tratos foram aplicados sinais glotais LF com frequências fundamentais de 100 a 500 Hz (em passos de 10 Hz). Cada sinal desse repositório possui uma duração de 200ms.

Arquivos ‘.wav’ com dois canais, a uma taxa de 44100 amostras/s, são disponibilizados neste repositório: no primeiro canal se encontra o sinal gravado na saída do trato vocal impresso e no segundo canal está contido o pulso glotal sintetizado que foi emitido pela fonte acústica. Também são disponibilizadas, em um arquivo ‘.pdf’, as respostas em frequência de cada trato vocal impresso, obtidas por meio da aplicação de sinais senoidais na entrada do trato, com frequências de 80 a 7350Hz, e a medição do ganho por meio da captação do sinal de saída. Na Figura 3 um exemplo de um arquivo do repositório é ilustrado, mostrando separadamente os sinais de cada canal. No áudio após a figura é possível escutar o sinal do primeiro canal do arquivo exemplificado, ou seja, o sinal de voz gravado. Na Figura 4 é ilustrada a resposta em frequência de um dos tratos vocais impressos.

Figura 3 – Ilustração de sinal do Repositório III do OPENGLOT, gravado do trato vocal impresso para a vogal I feminina à uma frequência fundamental de 220 Hz.

 

Figura 4 – Ilustração de resposta em frequência do trato vocal impresso para a vogal I feminina, disponibilizado no Repositório III.

– Repository IV

No quarto repositório do OPENGLOT são disponibilizadas 60 amostras de voz natural, gravadas de 5 homens e 5 mulheres, de modo que a fonação foi emitida por cada um em dois modos (normal e soprosa), utilizando frequências fundamentais graves, médias e agudas.

Juntamente com as gravações, foram feitas simultaneamente a captação do sinal eletroglotográfico12 e uma gravação de vídeo de alta velocidade das pregas vocais, obtido por meio um endoscópio rígido de via oral. Foi solicitado que cada indivíduo emitisse a vogal I, porém, de acordo com os autores, devido ao endoscópio introduzido no trato vocal dos indivíduos, o som emitido se assimilou mais a algo entre as vogais Æ e Œ.

Assim, neste repositório são disponibilizados 2 arquivos ‘.wav’, a uma taxa de 44100 amostras/s, (contendo o sinal de voz e o sinal eletroglotográfico) e um arquivo ‘.avi’ (contendo o vídeo das pregas vocais). Na Figura 5 um exemplo de arquivos de um sinal de voz e de um sinal eletroglotográfico, de uma mesma emissão, é ilustrado, mostrando separadamente os dois sinais. No áudio após a figura é possível escutar o sinal de voz gravado para essa emissão. Em seguida, é ilustrado o vídeo de alta velocidade das pregas vocais, durante essa mesma emissão.

Figura 5 – Ilustração de sinal do Repositório IV para fonação feminina, a uma frequência fundamental média.

Signal-to-Noise Ratio (SNR)

O SNR avalia a proporção entre a energia do sinal original e a energia do “ruído da estimação”. Se tivermos que g[n] é o sinal glotal original e \hat g[n] o pulso glotal estimado pelo IAIF, o SNR pode ser calculado de acordo com (1) e seu valor é dado em (dB).

(1)   \begin{equation*} SNR\ (\text{dB}) = 10 \log_{10}\left(\frac{\sum g[n]^2}{\sum (g[n]-\hat g[n])^2}\right) \end{equation*}

Utilizar o SNR como medida de avaliação da estimação, nesse caso, significa requerer que o pulso glotal original esteja disponível para a comparação. Dessa forma, a avaliação se limita aos sinais sintetizados e me levou a não utilizar o quarto repositório do OPENGLOT. Assim, outros métodos de avaliação são desejados, como a supracitada métrica baseada na parametrização glotal.

E aí? No que deu essa reavaliação?

Calma que já mostro os resultados, mas antes queria fazer umas considerações:

– Para a avaliação, implementei o IAIF nos sinais dos três primeiros repositórios do OPENGLOT. Utilizei janelas retangulares com 50ms de duração e 50% de superposição;

– Para a filtragem passa-altas prevista no modelo do IAIF (ver Figura 1), foi utilizado um filtro baseado em uma janela retangular, com frequência de corte em 60Hz.

– Para as ordens do IAIF (ver Figura 1) foram escolhidos g=4 e v=\text{round}\left(\frac{f_a}{1000}\right)13. Logo, para o primeiro repositório, v=8, e para os demais repositórios, v=44.

Por fim, agora sim, apresento a seguir os resultados que obtive para cada repositório.

Repository I

Os valores médios do SNR para o sinais do primeiro repositório encontram se representados na Tabela 4.

Rendered by QuickLaTeX.com

Nas Figuras 6 e 7 são ilustrados dois exemplos de trechos de sinais do primeiro repositório do OPENGLOT e seus sinais glotais estimados pelo IAIF.

Figura 6 – Estimação do IAIF para um sinal de voz do Repositório 1.
Figura 7 – Estimação do IAIF para um sinal de voz do Repositório 1.

Repository II

Os valores médios do SNR para o sinais do segundo repositório encontram se representados na Tabela 5.

Rendered by QuickLaTeX.com

Nas Figuras 8 e 9 são ilustrados dois exemplos de trechos de sinais do segundo repositório do OPENGLOT e seus sinais glotais estimados pelo IAIF.

Figura 8 – Estimação do IAIF para um sinal de voz masculina, com aducção grande, do Repositório 2.
Figura 9 – Estimação do IAIF para um sinal de voz feminina, com aducção grande, do Repositório 2.

Repository III

Os valores médios do SNR para o sinais do terceiro repositório encontram se representados na Tabela 6.

Rendered by QuickLaTeX.com

Nas Figuras 10, 11, 12 e 13 são ilustrados quatro exemplos de trechos de sinais do primeiro repositório do OPENGLOT e seus sinais glotais estimados pelo IAIF.

Figura 10 – Estimação do IAIF para um sinal de voz com trato vocal impresso masculino do Repositório 3.
Figura 11 – Estimação do IAIF para um sinal de voz com trato vocal impresso feminino do Repositório 3
Figura 12 – Estimação do IAIF para um sinal de voz com trato vocal impresso masculino do Repositório 3
Figura 13 – Estimação do IAIF para um sinal de voz com trato vocal impresso feminino do Repositório 3

Analisando os Resultados

Nos exemplos do repositório 1 é possível observar que há uma boa adequação temporal dos instantes de abertura e fechamento da glote14, apresentando mais inadequações na estimação durante a fase fechada da glote. Essas inadequações são mais discrepantes ainda quando olhamos para sinais de alta frequência fundamental, o que é uma dificuldade prevista pelos autores do IAIF[1], e são reforçadas pelos valores calculados do SNR.

Nos exemplos do repositório 2 e do repositório 3 é possível observar a ocorrência de uma defasagem temporal em relação ao sinal real. Ora, a defasagem temporal poderia ser prevista, tendo em vista que tanto no modelo mecânico-acústico como no trato vocal impresso as oscilações glotais percorrem um tubo (com comprimento em torno de 15.5cm para tratos vocais femininos e 17.5cm para tratos vocais masculinos) de acordo com a velocidade do som.

Também é possível observar nos exemplos desses dois repositórios um ajuste ruim da fase de fechamento pelo sinal estimado. Esse ajuste inadequado faz com que sinais com uma fase fechada mais curtos (nesse caso, os sinais de alta frequência do repositório II) apresentem um melhor desempenho na estimação, o que pode ser observado pelos valores do SNR.

Mas e aí? No final das contas, há virtude no método?

Apesar de os resultados não estimarem tão perfeitamente o sinal glotal, eles pesam favorávelmente em favor do IAIF (principalmente se comparados com as impressões dos primeiros relatórios avaliando o método). Além disso, o IAIF possui um versão atualizada[7], não implementada aqui ainda, que substitui o preditor linear convencional por um método, denominado Discrete All-Pole (DAP) Modelling [8],  proposto para ajustar os coeficientes de um filtro AR visando diminuir sua distorção espectral com o sinal analisado. Essa substituição permite um melhor ajuste do pulso glotal, especialmente para a fase fechada do pulso.

Também é valido mencionar que avaliar a parametrização glotal e a resposta em frequência do trato vocal estimada podem trazer informações relevantes a respeito da natureza e da acurácia do método avaliado.

Então o próximo passo vai ser verificar essa formas de avaliação?

Na verdade, não.

Não?!?! Vai implementar o IAIF com o DAP então?

Também não!

Ué? Então quais serão os próximos passos?

Para a continuidade dessa verificação, o mais intuitivo é de fato seguir essas propostas. Porém, ao menos por enquanto, estou deixando de lado essa verificação do IAIF e de outros métodos propostos para a estimação do pulso glotal. O plano para prosseguir com a pesquisa está centrado em estudar (e fazer uso) da modelagem física da produção da voz, como apresentado no trabalho de Story[5]15, enfatizando, principalmente, na modelagem mecânica da glote.

 


JAKE: Oh my gosh! How do you know OPENGLOT?
LESLEY: We share an Alku.
(Birdman or (The Unexpected Virtue of Ignorance), dirigido por Alejandro G. Iñárritu, sobre a base do OpenGlot)

RIGGAN: The question we should ask ourselves is: what do we talk about when we talk about glottal flow estimation?
(Birdman or (The Unexpected Virtue of Ignorance), dirigido por Alejandro G. Iñárritu, sobre a estimação de pulso glotal)

Beleza! Quais foram mesmo os artigos e livros que você citou?

[1] P. Alku, E. Vilkman, and U. Laine, “Analysis of glottal waveform in different phonation types using the new iaif-method,” in Proc. 12th int. congress phonetic sciences, 1991, p. 362–365.
[Bibtex]
@inproceedings{alku1991analysis,
title={Analysis of glottal waveform in different phonation types using the new IAIF-method},
author={Alku, P and Vilkman, E and Laine, UK},
booktitle={Proc. 12th Int. Congress Phonetic Sciences},
volume={4},
pages={362--365},
year={1991}
}
[2] P. Alku, T. Murtola, J. Malinen, J. Kuortti, B. Story, M. Airaksinen, M. Salmi, E. Vilkman, and A. Geneid, “Openglot–an open environment for the evaluation of glottal inverse filtering,” Speech communication, vol. 107, p. 38–47, 2019.
[Bibtex]
@article{alku2019openglot,
title={OPENGLOT--An open environment for the evaluation of glottal inverse filtering},
author={Alku, Paavo and Murtola, Tiina and Malinen, Jarmo and Kuortti, Juha and Story, Brad and Airaksinen, Manu and Salmi, Mika and Vilkman, Erkki and Geneid, Ahmed},
journal={Speech Communication},
volume={107},
pages={38--47},
year={2019},
publisher={Elsevier}
}
[3] G. Fant, J. Liljencrants, and Q. Lin, “A four-parameter model of glottal flow,” Stl-qpsr, vol. 4, iss. 1985, p. 1–13, 1985.
[Bibtex]
@article{fant1985four,
title={A four-parameter model of glottal flow},
author={Fant, Gunnar and Liljencrants, Johan and Lin, Qi-guang},
journal={STL-QPSR},
volume={4},
number={1985},
pages={1--13},
year={1985},
publisher={Citeseer}
}
[4] C. Gobl, “A preliminary study of acoustic voice quality correlates,” Stl-qpsr, vol. 4, p. 9–21, 1989.
[Bibtex]
@article{gobl1989preliminary,
title={A preliminary study of acoustic voice quality correlates},
author={Gobl, Christer},
journal={STL-QPSR},
volume={4},
pages={9--21},
year={1989},
publisher={Speech Transmission Laboratory, Royal Institute of Technology Stockholm}
}
[5] B. H. Story, “Phrase-level speech simulation with an airway modulation model of speech production,” Computer speech & language, vol. 27, iss. 4, p. 989–1010, 2013.
[Bibtex]
@article{story2013phrase,
title={Phrase-level speech simulation with an airway modulation model of speech production},
author={Story, Brad H},
journal={Computer speech \& language},
volume={27},
number={4},
pages={989--1010},
year={2013},
publisher={Elsevier}
}
[6] L. R. Rabiner and R. W. Schafer, Digital processing of speech signals, Prentice-Hall, 1978.
[Bibtex]
@book{Rabiner1978,
author = {Rabiner, Lawrence R and Schafer, Ronald W},
isbn = {0-13-213603-1},
pages = {1--512},
publisher = {Prentice-Hall},
title = {{Digital processing of speech signals}},
year = {1978}
}
[7] P. Alku and E. Vilkman, “Estimation of the glottal pulseform based on discrete all-pole modeling,” in Third international conference on spoken language processing, 1994.
[Bibtex]
@inproceedings{alku1994estimation,
title={Estimation of the glottal pulseform based on discrete all-pole modeling},
author={Alku, Paavo and Vilkman, Erkki},
booktitle={Third International Conference on Spoken Language Processing},
year={1994}
}
[8] A. El-Jaroudi and J. Makhoul, “Discrete all-pole modeling,” Ieee transactions on signal processing, vol. 39, iss. 2, p. 411–423, 1991.
[Bibtex]
@article{el1991discrete,
title={Discrete all-pole modeling},
author={El-Jaroudi, Amro and Makhoul, John},
journal={IEEE Transactions on signal processing},
volume={39},
number={2},
pages={411--423},
year={1991},
publisher={Citeseer}
}
Sobre o Autor

Mestrando em Engenharia Elétrica e Bacharel em Engenharia Eletrônica pela Universidade Federal de Sergipe. Interessado nas áreas de Processamento Digital de Sinais, Processamento Digital da Fala e Reconhecimento de Padrões. Atualmente desenvolve pesquisa no campo de processamento digital de sinais de fala aplicados à fonoaudiologia e à saúde vocal.

Áreas de Pesquisa: Processamento Digital de Sinais, Reconhecimento de Padrões, Processamento de Sinais de Voz e Fala, Qualidade Vocal.

  1. Caso esteja confuso nesse ponto, recomendo a leitura da explicação apresentada nesse primeiro relatório, antes de prosseguir
  2. Sim, o mesmo Alku que propôs o IAIF
  3. …e ao exercício de sua curiosidade
  4. Mesmo sendo ele um velho conhecido de muitos, vou tentar me ater apenas a não detalhar o que já foi explicado em relatórios anteriores
  5. Em caso de dúvidas com o modelo de Liljencrants-Fant, vale a pena rever o relatório shakespeariano
  6. crepitante
  7. soprosa
  8. sussurada
  9. E que eu já adaptei para python
  10. Também vou ficar devendo explicar o que é isso
  11. Os valores da aducção glótica utilizados para vozes masculinas e femininas também diferem
  12. Como esse repositório não será usado aqui (SPOILER!), também vou deixar em dívida uma explicação sobre o sinal eletroglotográfico para uma oportunidade futura. Assim evito que esse relatório se prolongue além do necessário
  13. Com base em sugestão apresentada no capítulo 8 do Rabiner [6]
  14. Em caso de dúvidas, rever o relatório sobre o modelo LF
  15. e utilizado para a síntese dos sinais do repositório 2 do OPENGLOT

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.