Self-attention for improving the differentiable rendering pipeline in image 3d reconstruction

Tasoniero, Felipe Roque

Please use this identifier to cite or link to this item: https://hdl.handle.net/10923/21130

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Barros, Rodrigo Coelho
dc.contributor.author	Tasoniero, Felipe Roque
dc.date.accessioned	2022-04-05T12:03:33Z	-
dc.date.available	2022-04-05T12:03:33Z	-
dc.date.issued	2021	pt_BR
dc.identifier.uri	https://hdl.handle.net/10923/21130	-
dc.description.abstract	Pesquisas recentes sobre modelos de Renderizacao Diferenciavel relacionados a reconstrucao 3D de imagens utilizam modelos totalmente convolucionais para extracao de features ou para o processamento de decodificacao. Por outro lado, varias tarefas de visão computacional como reconhecimento visual, segmentacao, geracao de imagens e detecção de objetos tiveram grande melhoria de desempenho ao fazer uso de modelos baseados em self-attention, conhecidos tradicionalmente como Transformers. Devido a tal sucesso, neste trabalho pretendemos explorar quatro diferentes abordagens de modelos baseados em selfattention para reconstrucao implicita de objetos 3D. Em nossa primeira abordagem, implementamos as camadas de self-attention da SAGAN junto as camadas convolucionais; em nossa segunda abordagem, implementamos o modelo patchwise self-attention para substituir completamente o codificador convolucional. Em seguida, implementamos um modelo de Transformer chamado Pyramid Vision Transformer para substituir o codificador convolucional do modelo DVR; finalmente, em nossa quarta abordagem, implementamos o modelo Nystromformer como um otimizador para reduzir o custo computacional e para melhorar a capacidade de extracao de features. Considerando todas as abordagens, nossos resultados mostraram que podemos alcancar resultados competitivos usando Transformers, bem como adicionando um otimizador para reduzir seu custo computacional. Com a aplicacao do modelo de otimizacao e consequente reducao do custo computacional, foi possivel modificar o modulo referente ao decodificador de forma a melhorar os resultados de reconstrucao, alcancando melhorias de ate 8,5% em relacao aos baselines.	pt_BR
dc.description.abstract	Recent studies on Differentiable Rendering models related to 3D reconstruction focus on fully convolutional-based models for data feature extraction or for the decoding process. On the other hand, computer vision tasks such as image recognition, segmentation, image generation, and object detection is benefiting largely from using fully self-attention approaches known as Transformers. Due to the recent success of the Transformer backbone models applied to computer vision, in this work we aim to explore four different approaches of self-attention-based models for implicit 3D object reconstruction from images. In our first approach, we have implemented the SAGAN Self-Attention layers together with convolutions layers; in our second approach, we have implemented a patchwise self-attention model to completely replace the convolutional encoder; next, we have implemented a Transformer model called Pyramid Vision Transformer to replace the convolutional based encoder from the DVR model; finally, we have implemented the Nystromformer model, an optimizer to reduce the computational cost and to improve the feature extracting capability. Considering all approaches, our results have shown that we can achieve competitive results by using Transformer models, as well as adding an optimizer to reduce the computational cost. By applying the optimization model and reducing the computational cost, it was possible to modify the decoder module to increase the reconstruction results, resulting in improvements of up to 8.5% compared to the baseline approaches.	en_US
dc.language.iso	Português	pt_BR
dc.publisher	Pontifícia Universidade Católica do Rio Grande do Sul	pt_BR
dc.rights	openAccess	en_US
dc.subject	VISÃO POR COMPUTADOR	pt_BR
dc.subject	REDES NEURAIS (COMPUTAÇÃO)	pt_BR
dc.subject	INFORMÁTICA	pt_BR
dc.title	Self-attention for improving the differentiable rendering pipeline in image 3d reconstruction	pt_BR
dc.type	masterThesis	pt_BR
dc.degree.grantor	Pontifícia Universidade Católica do Rio Grande do Sul	pt_BR
dc.degree.department	Faculdade de Informática	pt_BR
dc.degree.program	Programa de Pós-Graduação em Ciência da Computação	pt_BR
dc.degree.level	Mestrado	pt_BR
dc.degree.date	2021	pt_BR
dc.publisher.place	Porto Alegre	pt_BR
Appears in Collections:	Dissertação e Tese

Files in This Item:

File	Description	Size	Format
000502536-Texto+completo-0.pdf	Texto completo	4,35 MB	Adobe PDF	Open View

Show simple item record See statistics Search for other versions of fulltext via SFX