Defesa de dissertação (05/02/2019): Rodrigo Tavares de Souza
Discente: Rodrigo Tavares de Souza
Título: Appraisal-Spark: uma abordagem para imputação em larga escala
Orientadores: Jorge Abreu Soares (orientador)
Banca: Jorge Abreu Soares (CEFET/RJ) (presidente), Eduardo Soares Ogasawara (CEFET/RJ), Ronaldo Ribeiro Goldschmidt (IME)
Dia/Hora: 05 de fevereiro / 10h
Sala: Auditório V
Resumo:
Cresce continuamente o volume de dados armazenados e a demanda por integração entre os mesmos. Esse cenário aumenta a ocorrência de um problema bastante conhecido dos cientistas de dados: as diversas possibilidades de inconsistências. E um tipo de seus tipos comuns, a ausência de dados, pode prejudicar a análise e resultado de qualquer técnica produtora de informação. A imputação é a área que estuda métodos que buscam aproximar o valor imputado do real. A técnica de imputação composta aplica tarefas de aprendizado de máquina neste processo. Ela utiliza o conceito de plano de imputação, uma sequência lógica de estratégias e algoritmos utilizados na produção do valor imputado final. Neste trabalho, expandiremos a utilização desta técnica, complementando sua utilização com o classificador ensemble bagging. Neste método, os dados são divididos em grupos aleatórios e atrelados a classificadores chamados base learners. Para os subsets gerados no bagging serão retornadas as pontuações (percentual de assertividade) de cada plano de imputação. O plano com maior assertividade dentre todos os subsets será indicado como a sugestão de imputação para o conjunto completo. O trabalho é implementado em um sistema desenvolvido para a ferramenta Spark, denominado Appraisal-Spark, que tem como objetivo gerar valores com maior acurácia e desempenho preditivos para ambientes de larga escala. Através dele será possível compor diversos planos de imputação de alto desempenho, avaliando estratégias e comparando resultados.