DC Field | Value | Language |
dc.contributor.advisor | Lima, Vera Lúcia Strube de | - |
dc.contributor.author | Monteiro, Douglas Machado | - |
dc.date.accessioned | 2015-05-22T12:36:38Z | - |
dc.date.available | 2015-05-22T12:36:38Z | - |
dc.date.issued | 2015 | pt_BR |
dc.identifier.uri | http://hdl.handle.net/10923/7249 | - |
dc.description.abstract | Durante situações de emergência, uma grande quantidade de informação é trocada via mensagens SMS. Estas mensagens costumam ter escrita informal e contêm abreviações e erros de grafia, o que dificulta seu processamento. Este é um problema para as ferramentas de Extração de Informação atuais, especialmente para o Português. Este trabalho propõe uma arquitetura de extração de informação de mensagens SMS em situações de emergência. A arquitetura contempla quatro componentes: processamento linguístico, processamento temporal, processamento de eventos e fusão da informação. Também se define um processo para criação de corpus de SMSs. A partir da arquitetura proposta, foi realizado um estudo de caso que incluiu a construção do BraCorpSMS, um corpus de mensagens SMS recebidos por uma companhia de energia elétrica e um protótipo em Python utilizando NLTK para validar a arquitetura. O protótipo teve seus componentes de Extração de Informação avaliados, obtendo 88% de Precisão, 59% de Cobertura e 71% de Medida-F. Os resultados indicam oportunidades de avanços, mas, sendo este o primeiro trabalho para o Português voltado para o processamento de mensagens SMS em situações de emergência, também serve de roteiro para trabalhos futuros nesta área. | pt_BR |
dc.description.abstract | In mass emergencies, a fair amount of information is exchanged via SMS messages. These messages tend to be informal and to contain abbreviations and misspellings, which makes them difficult to treat. This is a problem for current Information Extraction tools, especially for messages in Portuguese. This work proposes an architecture to extract information from SMS messages during emergencies. The architecture comprises four components: Linguistic Processing, Temporal Processing, Event Processing, and Information Fusion. We also defined an SMS corpus building process. From the proposal of this architecture, we conducted a case study, which included building BraCorpSMS, a corpus of SMS messages received by an electric utility company. We built a prototype in Python using NLTK to validate the architecture. The prototype had its Information Extraction components evaluated achieving Precision of 88%, Recall of 59% and balanced F-measure of 71%. The results indicate improvement opportunities, but as this is the first work for Portuguese facing processing SMS messages during emergency situations, it also serves as a roadmap for future work in the area. | en_US |
dc.language.iso | Português | pt_BR |
dc.publisher | Pontifícia Universidade Católica do Rio Grande do Sul | pt_BR |
dc.rights | openAccess | en_US |
dc.subject | INFORMÁTICA | pt_BR |
dc.subject | PROCESSAMENTO DA LINGUAGEM NATURAL | pt_BR |
dc.subject | RECUPERAÇÃO DA INFORMAÇÃO | pt_BR |
dc.title | A proposal for an architecture to extract information from sms messages during emergency situations | pt_BR |
dc.type | masterThesis | pt_BR |
dc.degree.grantor | Pontifícia Universidade Católica do Rio Grande do Sul | pt_BR |
dc.degree.department | Faculdade de Informática | pt_BR |
dc.degree.program | Programa de Pós-Graduação em Ciência da Computação | pt_BR |
dc.degree.level | Doutorado | pt_BR |
dc.degree.date | 2015 | pt_BR |
dc.publisher.place | Porto Alegre | pt_BR |
Appears in Collections: | Dissertação e Tese
|