Please use this identifier to cite or link to this item: https://hdl.handle.net/10923/13125
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorVieira, Renata
dc.contributor.authorSantos, Carlos Alberto dos
dc.date.accessioned2018-11-09T11:03:21Z-
dc.date.available2018-11-09T11:03:21Z-
dc.date.issued2018pt_BR
dc.identifier.urihttp://hdl.handle.net/10923/13125-
dc.description.abstractSabe-se que o processamento linguístico de corpora demanda grande esforço computacional devido à complexidade dos seus algoritmos, mas que, apesar disso, os resultados alcançados são melhores que aqueles gerados pelo processamento estatístico, onde a demanda computacional é menor. Esta dissertação descreve uma análise comparativa entre os processos linguístico e estatístico de extração de termos. Foram realizados experimentos através de quatro corpora em língua inglesa, construídos a partir de artigos científicos, sobre os quais foram executadas extrações de termos utilizando essas abordagens. As listas de termos resultantes foram refinadas com o uso de métricas de relevância e stop list, e em seguida comparadas com as listas de referência dos corpora através da técnica do recall. Essas listas, por sua vez, foram construídas a partir do contexto desses corpora e com ajuda de pesquisas na Internet. Os resultados mostraram que a extração estatística combinada com as técnicas da stop list e as métricas de relevância pode produzir resultados superiores ao processo de extração linguístico refinado pelas mesmas métricas. Concluiu se que a abordagem estatística composta por essas técnicas pode ser a opção ideal para extração de termos relevantes, por exigir poucos recursos computacionais e por apresentar resultados superiores àqueles encontrados no processamento linguístico.pt_BR
dc.description.abstractIt is known that linguistic processing of corpora demands high computational effort because of the complexity of its algorithms, but despite this, the results reached are better than that generated by the statistical processing, where the computational demand is lower. This dissertation describes a comparative analysis between the process linguistic and statistical of term extraction. Experiments were carried out through four corpora in English idiom, built from scientific papers, on which terms extractions were carried out using the approaches. The resulting terms lists were refined with use of relevance metrics and stop list, and then compared with the reference lists of the corpora across the recall technical. These lists, in its turn, were built from the context these corpora, whith help of Internet searches. The results shown that the statistical extraction combined with the stop list and relevance metrics can produce superior results to linguistic process extraction using the same metrics. It’s concluded that statistical approach composed by these metrics can be ideal option to relevance terms extraction, by requiring few computational resources and by to show superior results that found in the linguistic processing.en_US
dc.language.isoPortuguêspt_BR
dc.publisherPontifícia Universidade Católica do Rio Grande do Sulpt_BR
dc.rightsopenAccessen_US
dc.subjectMINERAÇÃO DE DADOS (INFORMÁTICA)pt_BR
dc.subjectPROCESSAMENTO DA LINGUAGEM NATURALpt_BR
dc.subjectESTATÍSTICApt_BR
dc.subjectINFORMÁTICApt_BR
dc.titleUma análise comparativa entre as abordagens linguística e estatística para extração automática de termos relevantes de corporapt_BR
dc.typemasterThesispt_BR
dc.degree.grantorPontifícia Universidade Católica do Rio Grande do Sulpt_BR
dc.degree.departmentFaculdade de Informáticapt_BR
dc.degree.programPrograma de Pós-Graduação em Ciência da Computaçãopt_BR
dc.degree.levelMestradopt_BR
dc.degree.date2018pt_BR
dc.publisher.placePorto Alegrept_BR
Appears in Collections:Dissertação e Tese

Files in This Item:
File Description SizeFormat 
000490051-Texto+Completo-0.pdfTexto Completo1,24 MBAdobe PDFOpen
View


All Items in PUCRS Repository are protected by copyright, with all rights reserved, and are licensed under a Creative Commons Attribution-NonCommercial 4.0 International License. Read more.