Defesa de dissertação (28/02/2019): Ramon Ferreira Silva

Discente: Ramon Ferreira Silva

Título: Refinamento de Modelos de Respostas a Perguntas Binárias

Orientadores: Eduardo Bezerra da Silva (orientador), Joel André Ferreira dos Santos (coorientador)

Banca: Eduardo Bezerra da Silva (CEFET/RJ) (presidente), Joel André Ferreira dos Santos (CEFET/RJ), Kele Teixeira Belloze (CEFET/RJ), Ronaldo Ribeiro Goldschmidt (IME-RJ)

Dia/Hora: 28 de fevereiro / 9h

Sala: Auditório V

Resumo:

Respostas a Perguntas Visuais (Visual Question Answering, RPV) é uma tarefa que une os campos da Visão Computacional e do Processamento de Linguagem Natural (Natural Language Processing, PLN). Tomando como entradas uma imagem I e uma pergunta em linguagem natural Q acerca de I, um modelo para RPV deve ser capaz de produzir uma resposta R (também em linguagem natural) para Q de maneira coerente.  Um tipo particular de consulta visual é aquele no qual a pergunta é binária (i.e., uma pergunta cuja resposta pertence ao conjunto {sim, não}). Atualmente, redes neurais profundas são a técnica que corresponde ao estado da arte para o treinamento de modelos de RPV. Apesar de seu sucesso, a aplicação de redes neurais à tarefa de RPV requer uma quantidade muito grande de dados para que se consiga produzir modelos com precisão adequada.  Os conjuntos de dados atualmente utilizados para o treinamento de modelos de RPV são resultantes de processos laboriosos de rotulação manual (i.e., feita por seres humanos).  Esse contexto torna relevante o estudo de abordagens para tirar maior proveito desses conjuntos de dados durante o treinamento. Esta dissertação se propõe a investigar abordagens de melhoria na precisão dos modelos de RPV para perguntas binárias.  Em particular, apresentamos abordagens fundamentadas nas técnicas de aprendizado ativo (active learning) e de aumento de dados (data augmentation) para tirar maior proveito do conjunto de dados existente durante a fase de treinamento de um modelo de RPV.

Comments are closed.