Utilize este identificador para citar ou criar um atalho para este documento: https://hdl.handle.net/10923/26505
Tipo: masterThesis
Título: Dimensional speech emotion recognition: a bimodal approach
Autor(es): Guder, Larissa Daiane Caneppele
Orientador: Griebler, Dalvan Jair
Aires, João Paulo de Souza
Editora: Pontifícia Universidade Católica do Rio Grande do Sul
Programa: Programa de Pós-Graduação em Ciência da Computação
Data de Publicação: 2024
Palavras-chave: PROCESSAMENTO DA LINGUAGEM NATURAL
TECNOLOGIA STREAMING (TELECOMUNICAÇÃO)
INFORMÁTICA
Resumo: Considerando a relação humano-computador, a computação afetiva visa permitir com que computadores sejam capazes de reconhecer ou expressar emoções. O Reconhecimento de Emoções na Fala é uma tarefa da computação afetiva que tem como objetivo reconhecer emoções presentes em um segmento de áudio. O modo tradicional de predizer emoções na fala é utilizando classes pré-determinadas, no modo offline. Dessa maneira, o número de emoções que pode ser reconhecido é limitado ao número de classes. Para evitar essa limitação o reconhecimento dimensional de emoção utilizando dimensões como a valência, ativação e dominancia, consegue representar emoções com maior granulidade. Pesquisas recentes propõem o uso de informações textuais para melhorar os resultados da valência. Apesar dos esforços recentes para tentar melhorar os resultados no reconhecimento dimensional de emoções na fala, eles não consideram cenários do mundo real, onde é necessário processar a entrada em um curto espaço de tempo. Considerando estes aspectos, nesse trabalho, são dados os primeiros passos através de uma abordagem bimodal para o reconhecimento dimensional de emoções na fala em streaming. Nossa abordagem combina representações de sentenças e áudio como entrada para uma rede neural recorrente, que realiza o reconhecimento de emoções na fala. Nós avaliamos diferentes métodos para criar as representações de texto e de áudio, bem como técnicas para o reconhecimento automático da fala. Nossos melhores resultados atingiram 0.5915 de CCC de ativação, 0.4165 para valência, e 0.5899 de dominância no dataset IEMOCAP.
Considering the human-machine relationship, affective computing aims to allow computers to recognize or express emotions. Speech Emotion Recognition is a task from affective computing that aims to recognize emotions in an audio utterance. The most common way to predict emotions from the speech is using pre-determined classes in the offline mode. On that way, the emotion recognition is restricted to the number of classes. To avoid this restriction, dimensional emotion recognition uses dimensions such as valence, arousal, and dominance, can represent emotions with higher granularity. Existing approaches propose using textual information to improve results for the valence dimension. Although recent efforts try to improve results on Speech Emotion Recognition to predict emotion dimensions, they do not consider real-world scenarios, where processing the input in a short time is necessary. Considering these aspects, in this work, we give the first step towards creating a bimodal approach for Dimensional Speech Emotion Recognition in streaming. Our approach combines sentence and audio representations as input to a recurrent neural network that performs speech emotion recognition. We evaluate different methods for creating audio and text representations, as well as automatic speech recognition techniques. Our best results achieve 0.5915 of CCC for arousal, 0.4165 for valence, and 0.5899 for dominance in the IEMOCAP dataset.
URI: https://hdl.handle.net/10923/26505
Aparece nas Coleções:Dissertação e Tese

Arquivos neste item:
Arquivo Descrição TamanhoFormato 
000508686-Texto+confidencial-0.pdfTexto completo1,69 MBAdobe PDFAbrir
Exibir


Todos os itens no Repositório da PUCRS estão protegidos por copyright, com todos os direitos reservados, e estão licenciados com uma Licença Creative Commons - Atribuição-NãoComercial 4.0 Internacional. Saiba mais.