Criação da base de falas emotivas do Biochaves

Uma emoção básica é um paradigma universal de comportamento que se manifesta, entre outros meios, pela voz [1]. Quatro emoções são mais propostas como emoções básicas, elas são: felicidade, tristeza, raiva e medo [2]. Dessa forma, provavelmente elas são as emoções básicas mais fáceis de distinguir entre si. Essa hipótese motivou a criação de uma base com falas dessas quatro emoções.

As falas emotivas captadas para estudo podem ser divididas por abordagem, em geral, de três maneiras: naturais, induzidas e atuadas [3]. As falas emotivas naturais são falas emotivas que apareceram naturalmente durante uma conversa sendo gravada, por exemplo, em entrevistas de rádio ou televisão [4]. Essa abordagem possui dois problemas principais: a falta de ética de gravar uma pessoa sem a permissão dela e a dificuldade de conseguir uma quantidade igual de expressões de cada emoção [5]. Esses problemas podem ser solucionados com a abordagem de falas emotivas induzidas, nela as falas são obtidas em um ambiente controlado onde o responsável pelo estudo tenta induzir respostas emotivas influenciando o voluntário através de músicas, filmes ou informações pessoais [6]. No entanto, ela também tem um problema, a reação ao estímulo pode não ser direta, um mesmo estímulo pode levar pessoas a terem reações emotivas diferentes [7]. Apesar desses problemas específicos de cada uma, essas duas abordagens são as melhores formas desenvolvidas pelos pesquisadores para capturar falas emotivas mais naturais, onde eles abrem mão do controle sobre o que é falado e quando vai ser falado para obter expressões emotivas espontâneas [8].

No caminho contrário, a terceira abordagem de falas emotivas atuadas abre mão da espontaneidade para oferecer controle tanto do momento que a emoção vai ser expressa quanto do conteúdo fonético e textual, ou seja, uma mesma sentença pode ser falada com diferentes emoções o que permite a comparação direta entre as características da fala presente em cada uma. A captação de fala emotiva através de atores é o método mais utilizado justamente por oferecer essas simplicidades [8]. O grande problema dela é que o ator pode dramatizar a emoção de uma forma estereotipada não refletindo como uma pessoa a expressaria no cotidiano [9]. No entanto, esse problema pode ser amenizado por técnicas de auto-indução, em que o ator busca entrar em um estado emotivo através da memória, imaginação ou gestos [10].

A base de falas emotivas do Biochaves possui falas atuadas e foi criada usando as informações técnicas da base alemã EmoDB, que está disponível no site http://www.emodb.bilderbar.info/download/, uma base muito popular com falas emotivas atuadas [11]. As falas dela foram captadas com 16 kHz para manter a mesma faixa de conteúdo espectral conservada que a EmoDB e utilizaram nove frases obtidas em uma tradução livre de nove frases da EmoDB. O único interesse na tradução dessas frases foi que as frases ficassem cotidianas e emocionalmente neutras para facilitar a expressão homogênea de cada emoção e o processo de auto-indução dos voluntários, o conteúdo linguístico delas foi ignorado e por esse motivo a frase Das schwarze Stück Papier befindet sich da oben neben dem Holzstück da EmoDB foi removida pois em apenas uma tradução simples ela não forneceu uma frase cotidiana. Assim, as nove frases retidas na base são:

Frase 1  “O pano está na porta da geladeira.”
Frase 2  “Ela vai entregar na quarta-feira.”
Frase 3  “Hoje a noite eu falo com ele.”
Frase 4  “Estará pronto em sete horas.”
Frase 5  “O que são esses sacos debaixo da mesa?”
Frase 6 “Eles acabaram de subir e já estão descendo novamente.”
Frase 7 “Eu estou indo para casa todo final de semana.”
Frase 8  “Eu só quero me livrar disso e ir beber.”
Frase 9 “Sempre vai estar onde você deixou.”

Essas frases foram gravadas por voluntários, sem nenhuma experiência de atuação, apenas com a recomendação de utilizarem auto-indução, a utilização de memórias, imaginação e gestos para dar mais naturalidade as expressões, com uma leitura neutra e expressando as quatro emoções mais propostas como emoções básicas: medo, felicidade, raiva e tristeza.

A proposta da base é captar a noção de expressão emotiva cotidiana de cada voluntário da base através da gravação das mesmas frases com expressões de emoções diferentes. Para isso, cada voluntário pôde fazer cada expressão quantas vezes quisesse. Após gravar todas as expressões, os próprios voluntários as escutaram para indicar ao organizador da base em quais instantes das gravações estavam as expressões que eles julgaram mais apropriadas. Esse procedimento foi adotado para evitar constrangimento dos voluntários, para eles ficarem a vontade, cada voluntário foi deixado sozinho no instante da gravação e apenas ele ouviu as próprias gravações, assim, o organizador da base não ouviu e nem avaliou nenhuma das expressões durante a gravação, apenas o próprio voluntário que as gravou.

Como a proposta da base é captar a noção cotidiana de expressão de emoções dos voluntários, a prioridade foi conseguir captar expressões que satisfizessem o voluntário e ter expressões de mais voluntários. Dessa forma, cada voluntário só falou as cinco expressões, uma neutra e quatro emotivas, com três frases por voluntário, para reduzir a duração das sessões de gravação mas permitir que o voluntário conseguisse expressar e escutar as falas. No entanto, para o resultado das análises usando a base não estar atrelado a frases especificas que já estão com seu conteúdo linguístico sendo ignorado de qualquer forma, os voluntários alternaram as frases utilizadas por eles: um voluntário falou as frases de 1 a 3, o próximo de 4 a 6, o próximo de 7 a 9, o próximo retorna para as frases de 1 a 3 e assim por diante.

As sessões de gravação ocorreram em um mesmo ambiente, no auditório do Departamento de Engenharia Elétrica da Universidade Federal de Sergipe, com um ruído ambiente de 30dB, um nível silencioso, para ter uma boa qualidade da captura do áudio e evitar que o voluntário se distraísse durante as gravações. Além disso, com o intuito de também evitar que o voluntário fosse distraído ou influenciado, ele foi deixado sozinho na sala em uma marcação a 50cm da parede e avisado para não se deslocar dessa marcação, essa distância evitou a saturação da voz pelo celular da Samsung modelo “GT-I8200L” que foi utilizado nas gravações e estava fixado na parede com um suporte. Após as falas serem gravadas, o voluntário ouviu as gravações no celular com os fones de ouvido da Multilaser modelo “Headset Giant P2” para indicar os instantes da gravação com as falas que foram guardadas na base. Todas as gravações das interpretações foram realizadas com o uso do aplicativo gratuito “Gravador de Voz Fácil” e o ruído presente no ambiente foi monitorado com o aplicativo gratuito “Decibelímetro”.

Ao todo a base tem 240 falas de 16 voluntários, em que cada voluntário contribuiu com 15 falas, uma fala para cada uma das 3 frases do voluntário sendo expressada de 5 formas diferentes, em uma interpretação neutra e nas quatro emoções da base. Ela está disponível para download no link: https://mega.nz/#!oeAx2KAL!SaBQOyGnV-Wrkq7NtLeZem42hCOiyjZEwmFtYRJRmLs.

O nome de cada arquivo está organizado para indicar qual voluntário está falando, que frase está sendo dita e com qual emoção. A primeira numeração nos nomes dos arquivos, depois de ‘EC’, representa um dos 16 voluntários, a segunda numeração, depois de ‘F’, indica qual das frases da base está sendo dita e a terceira numeração, depois de ‘E’, indica qual emoção está sendo expressada. No Quadro 1 está quais frases foram faladas por cada um dos voluntários, juntamente com as informações do sexo e idade dos voluntários, fatores que alteram a voz do voluntário. Cada uma dessas frases foi usada para expressar as seguintes emoções: 01-Neutro, 02-Medo, 03-Tristeza, 04-Felicidade e 05-Raiva.

Quadro 1 – Informações de cada voluntário da base

Avaliação das expressões da base

A qualidade das falas emotivas presentes na base foram avaliadas através de testes de percepção. Esses testes de percepção são importantes porque utilizam um número maior de pessoas para avaliar a capacidade de reconhecimento humano das expressões emotivas contidas na base. Neles, cada voluntário ouvinte escutou, nos fones de ouvido, as noves frases da base faladas por um voluntário diferente e com uma emoção aleatória, das quatro emoções da base. Após escutar cada uma das frases, o voluntário ouvinte avaliou qual das quatro emoções ele achava que estava presente na frase.

O nível de confiança do resultado de N avaliações pode ser estabelecido pelo teste da hipótese nula [12]. A hipótese nula é que não há nenhuma informação emocional nas expressões e as N avaliações foram feitas de forma aleatória. Neste caso, a quantidade k de avaliações corretas é estabelecida por mero acaso e a probabilidade dela pode ser obtida pela contagem de possibilidades das N avaliações terem gerado k acertos. Por exemplo, se uma avaliação é a escolha de um voluntário por uma entre quatro opções de emoção para uma fala. Neste exemplo, as N avaliações podem ter 4^N resultados diferentes e as (N-k) avaliações erradas podem ser descritas de 3^{(N-k)} formas diferentes. Além disso, por simples permutação, já que a troca de ordem das avaliações não altera o resultado, o resultado dessas avaliações pode ser organizado de \frac{N!}{k!(N-k)!} formas diferentes. Assim, a probabilidade P(k) desses k acertos é determinada pela variável aleatória binomial

(1)   \begin{equation*} P(k) = \frac{N!}{k!(N-k)!}\frac{1^k}{4^k}\frac{3^{N-k}}{4^{N-k}} \end{equation*}

obtida pela combinação de N ensaios independentes de uma variável aleatória de Bernoulli [13].

O cálculo de P(k) pode ser complicado, se N for um número grande, devido ao uso da operação fatorial. No entanto, como essa variável aleatória é composta pela soma de N ensaios independentes de uma variável de Bernoulli, a probabilidade dela pode ser descrita pela convolução das N distribuições de Bernoulli e como a convolução de um número grande de funções é aproximadamente uma Gaussiana [14], pelo teorema do limite central P(k) pode ser aproximada por uma Gaussiana G(k) que é descrita pela equação

(2)   \begin{equation*} G(k) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}(\frac{k - \mu}{\sigma})^2}, \end{equation*}

em que \mu=\frac{N}{4} e \sigma^2=N\times(\frac{1}{4})\times(\frac{3}{4}) [13].

O teste de percepção teve 72 voluntários que avaliaram 9 falas da base cada um. Assim foi possível avaliar todas as 192 falas emotivas da base pelo menos 3 vezes. Dessas 648 avaliações, os ouvintes indicaram perceber a mesma emoção que o voluntário que gravou em 378 avaliações, o que totaliza 58,33\% de acertos, em que considera-se um acerto quando a emoção percebida pelo ouvinte é igual à intencionada pelo orador. A confiança nesse resultado pode ser avaliada pelo teste da hipótese nula com G(k) possuindo \mu = \frac{648}{4}=162 e \sigma^2=648\times\frac{1}{4}\times\frac{3}{4}=121,5 que está ilustrado na Figura 1.

 

Figura 1 – Densidade de probabilidade da hipótese nula

 

Assim, a probabilidade de se obter uma quantidade maior ou igual a 378 avaliações corretas, sob a hipótese nula, ou seja, através de chutes aleatórios é praticamente nula. Esse resultado sugere fortemente, com um nível de confiança estatístico maior que 99\%, que os avaliadores humanos percebem parcialmente as intenções de emoções nos registros de fala da base.

 

A matriz com os resultados das avaliações está no arquivo .txt que pode ser baixado no link: https://mega.nz/#!hDBjVagQ!hQM-Ocn-MFjFtpUfth5ccePWQnKsi3NYHd9eigyWmMU. No total, os 72 voluntários forneceram 3 vezes o resultado de 216 avaliações diferentes. O Quadro 2 contém a descrição do que representa cada coluna da matriz.

Quadro 2 – Descrições da matriz com o resultado das avaliações

 

 

[1] J. Pittermann, A. Pittermann, and W. Minker, Handling emotions in human-computer dialogues, Springer, 2010.
[Bibtex]
@book{pittermann2010handling,
title={Handling emotions in human-computer dialogues},
author={Pittermann, Johannes and Pittermann, Angela and Minker, Wolfgang},
year={2010},
publisher={Springer}
}
[2] L. Devillers, I. Vasilescu, and L. Lamel, “Annotation and detection of emotion in a task-oriented human-human dialog corpus,” in Isle workshop on dialogue tagging, 2002.
[Bibtex]
@INPROCEEDINGS{Devillers02annotationand,
author = {Laurence Devillers and Ioana Vasilescu and Lori Lamel},
title = {Annotation and Detection of Emotion in a Task-oriented Human-Human Dialog Corpus},
booktitle = { ISLE WORKSHOP ON DIALOGUE TAGGING},
year = {2002},
publisher = {}
}
[3] E. Douglas-Cowie, N. Campbell, R. Cowie, and P. Roach, “Emotional speech: towards a new generation of databases,” Speech communication, vol. 40, iss. 1-2, p. 33–60, 2003.
[Bibtex]
@article{douglas2003emotional,
title={Emotional speech: Towards a new generation of databases},
author={Douglas-Cowie, Ellen and Campbell, Nick and Cowie, Roddy and Roach, Peter},
journal={Speech communication},
volume={40},
number={1-2},
pages={33--60},
year={2003},
publisher={Elsevier}
}
[4] E. Douglas-Cowie, R. Cowie, and M. Schröder, “A new emotion database: considerations, sources and scope,” , 2000.
[Bibtex]
@article{douglas2000new,
title={A new emotion database: considerations, sources and scope},
author={Douglas-Cowie, Ellen and Cowie, Roddy and Schr{\"o}der, Marc},
booktitle={ISCA tutorial and research workshop (ITRW) on speech and emotion},
year={2000}
}
[5] S. G. Koolagudi and S. K. Rao, “Emotion recognition from speech: a review,” International journal of speech technology, vol. 15, iss. 2, p. 99–117, 2012.
[Bibtex]
@article{koolagudi2012emotion,
title={Emotion recognition from speech: a review},
author={Koolagudi, Shashidhar G and Rao, K Sreenivasa},
journal={International journal of speech technology},
volume={15},
number={2},
pages={99--117},
year={2012},
publisher={Springer}
}
[6] A. Gerrards-Hesse, K. Spies, and F. W. Hesse, “Experimental inductions of emotional states and their effectiveness: a review,” British journal of psychology, vol. 85, iss. 1, p. 55–78, 1994.
[Bibtex]
@article{gerrards1994experimental,
title={Experimental inductions of emotional states and their effectiveness: A review},
author={Gerrards-Hesse, Astrid and Spies, Kordelia and Hesse, Friedrich W},
journal={British journal of psychology},
volume={85},
number={1},
pages={55--78},
year={1994},
publisher={Wiley Online Library}
}
[7] A. R. M. Ferro, “Speech emotion recognition through statistical classification,” , 2017.
[Bibtex]
@article{ferro2017speech,
title={Speech emotion recognition through statistical classification},
author={Ferro, Adelino Rafael Mendes},
year={2017}
}
[8] M. Schröder, “Speech and emotion research: an overview of research frameworks and a dimensional approach to emotional speech synthesis,” Doctoral thesis, phonus 7, research report of the institute of phonetics, saarland university, 2004.
[Bibtex]
@article{schroder2004speech,
title={Speech and Emotion Research: An overview of research frameworks and a dimensional approach to emotional speech synthesis},
author={Schr{\"o}der, Marc},
journal={Doctoral thesis, Phonus 7, Research Report of the Institute of Phonetics, Saarland University},
year={2004}
}
[9] T. Vogt and E. André, “Comparing feature sets for acted and spontaneous speech in view of automatic emotion recognition,” in 2005 ieee international conference on multimedia and expo, 2005, p. 474–477.
[Bibtex]
@inproceedings{vogt2005comparing,
title={Comparing feature sets for acted and spontaneous speech in view of automatic emotion recognition},
author={Vogt, Thurid and Andr{\'e}, Elisabeth},
booktitle={2005 IEEE International Conference on Multimedia and Expo},
pages={474--477},
year={2005},
organization={IEEE}
}
[10] R. Banse and K. R. Scherer, “Acoustic profiles in vocal emotion expression.,” Journal of personality and social psychology, vol. 70, iss. 3, p. 614, 1996.
[Bibtex]
@article{banse1996acoustic,
title={Acoustic profiles in vocal emotion expression.},
author={Banse, Rainer and Scherer, Klaus R},
journal={Journal of personality and social psychology},
volume={70},
number={3},
pages={614},
year={1996},
publisher={American Psychological Association}
}
[11] N. A. Zaidan and M. S. H. Salam, “A review on speech emotion features,” Jurnal teknologi, vol. 75, iss. 2, 2015.
[Bibtex]
@article{zaidan2015review,
title={A review on speech emotion features},
author={Zaidan, Noor Aina and Salam, Md Sah Hj},
journal={Jurnal Teknologi},
volume={75},
number={2},
year={2015}
}
[12] S. M. Ross, “Simulation, fourth edition,” Br med j, vol. 1, iss. 3923, p. 554–554, 2006.
[Bibtex]
@article{fisher1936design,
title={Design of experiments},
author={Fisher, Ronald Aylmer},
journal={Br Med J},
volume={1},
number={3923},
pages={554--554},
year={1936},
publisher={British Medical Journal Publishing Group}
@book{Ross:2006:SFE:1197255,
author = {Ross, Sheldon M.},
title = {Simulation, Fourth Edition},
year = {2006},
isbn = {0125980639},
publisher = {Academic Press, Inc.},
address = {Orlando, FL, USA},
}
}
[13] Unknown bibtex entry with key [Ross:2006:SFE:1197255]
[Bibtex]
[14] A. Papoulis, S. U. Pillai, and S. U. Pillai, Probability, random variables, and stochastic processes, McGraw-Hill, 2002.
[Bibtex]
@book{papoulis2002probability,
title={Probability, Random Variables, and Stochastic Processes},
author={Papoulis, A. and Pillai, S.U. and Pillai, S.U.},
isbn={9780073660110},
lccn={01044139},
series={McGraw-Hill electrical and electronic engineering series},
url={https://books.google.com.br/books?id=YYwQAQAAIAAJ},
year={2002},
publisher={McGraw-Hill}
}
Sobre o Autor

Estudante de Graduação em Engenharia Eletrônica na Universidade Federal de Sergipe. Interessado nas áreas de Processamento Digital de Sinais, Processamento Digital da Fala e Reconhecimento de Padrões

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.