Please use this identifier to cite or link to this item: https://hdl.handle.net/10923/16342
Type: doctoralThesis
Title: Uberband: meta-aprendizado e otimização baseada em bandidos multi-armados para seleção eficiente e efetiva de processos completos
Author(s): Dôres, Silvia Cristina Nunes das
Advisor: Ruiz, Duncan Dubugras Alcoba
Soares, Carlos Manuel Milheiro de Oliveira Pinto
Publisher: Pontifícia Universidade Católica do Rio Grande do Sul
Graduate Program: Programa de Pós-Graduação em Ciência da Computação
Issue Date: 2019
Keywords: BASES DE CONHECIMENTO (COMPUTAÇÃO)
BASE DE DADOS
BANCO DE DADOS - GERÊNCIA
INFORMÁTICA
Abstract: Na medida em que tecnologias para gerenciamento e armazenamento de dados se tornam amplamente disponíveis, torna-se um desafio fornecer aos usuários sistemas eficazes de análise e compreensão desses dados. Descoberta de Conhecimento em Bases de Dados (DCBD) é o processo não-trivial de extração de padrões interessantes, válidos e úteis a partir de dados. Este processo inclui desde a seleção de dados, até a interpretação dos padrões identificados. Especialmente para usuários não especialistas, a definição e gestão de um processo de DCBD são atividades complexas, pois é exigido o conhecimento sobre como escolher as operadores adequados dentre a gama disponível para cada etapa, como configurá-los e como interpretar sua saída. Seleção Automática de Processos Completos (SPC) objetiva auxiliar usuários de DCBD na tarefa onerosa de escolher o processo completo de operadores, que inclui métodos de pré processamento, algoritmos de aprendizado de máquina e suas configurações de hiper-parâmetros mais adequados a um determinado problema. Embora diversas soluções já existam para esta tarefa, tais soluções são limitadas do ponto de vista da avaliação do processo completo i) algumas soluções não realizam experimentação do processo e se baseiam apenas em estimativas de desempenho de problemas similares, o que pode levar a recomendações não-precisas e ii) as demais soluções avaliam os processos completos repetidas vezes sobre o conjunto de treinamento inteiro até encontrar a melhor opção. Estas últimas soluções geralmente obtém resultados mais precisos, porém, se tornam computacionalmente custosas em termo de tempo, à medida em que os conjuntos de dados aumentam e novos algoritmos são desenvolvidos. .Neste sentido, esta pesquisa propõe e analisa um novo algoritmo para SPC, denominado Uberband, que combina Meta-Aprendizado, para a estimar a probabilidade de amostragem de operadores, e otimização baseada em bandidos multi armados, para realização de alocação adaptativa de instâncias do conjunto de treinamento durante o processo de otimização. Resultados da análise experimental comparativa com soluções estado-da-arte em SPC, indicaram que Uberband proporciona uma SPC com desempenho similar e em um tempo expressivamente menor do que as soluções atuais.
Since data management and storage technologies become widely available, it becomes a challenge to provide users with effective systems for analyzing and understanding these data. Knowledge Discovery on Databases (KDD) is the non trivial process of extracting interesting, valid, and useful patterns from data. This process ranges from data selection to interpretation of the identified patterns. Especially for non-expert users, the definition and management of KDD process are complex activities, since it requires knowledge on how to choose the appropriate operators from the available range, how to configure them and how to interpret their output. Automatic Workflow Selection (AWS) aims to assist users of KDD in the onerous task of choosing the workflow, which includes preprocessing methods, machine learning algorithms and their hyper-parameter configurations, more suitable for a given problem. Although several solutions already exist for this task, such solutions are limited from the point of view of experimental evaluation of candidate workflows: i) some solutions do not perform workflow experimentation and are based on performance predictions in similar problems, which can lead to non-precise recommendations and ii) other solutions evaluate the workflows configurations over the entire training set until the best option is found. These latter solutions usually get more accurate results, however, they become computationally time-consuming as the datasets increase and new algorithms are developed. In this sense, this research proposes and investigates a new algorithm for AWS, named Uberband, that combines metalearning and multi-armed bandit optimization to perform adaptive allocation of the training data set during the optimization process. .Results of the comparative experimental analysis with state-of-the-art solutions in AWS indicated that Uberband provides a AWS with good performance and in a significantly speedup over the current solutions.
URI: http://hdl.handle.net/10923/16342
Appears in Collections:Dissertação e Tese

Files in This Item:
File Description SizeFormat 
000496640-Texto+completo-0.pdfTexto completo13,62 MBAdobe PDFOpen
View


All Items in PUCRS Repository are protected by copyright, with all rights reserved, and are licensed under a Creative Commons Attribution-NonCommercial 4.0 International License. Read more.