Defesa de dissertação (14/08/2020): Thiago da Silva Pereira

Discente: Thiago da Silva Pereira

Título: Imputação de dados Hot-Deck: uma comparação entre comitês de regressão

Orientadores:  Jorge de Abreu Soares (orientador), Eduardo Bezerra da Silva (CEFET/RJ) (coorientador).

Banca: Jorge de Abreu Soares (presidente), Eduardo Bezerra da Silva (CEFET/RJ), Diego Nunes Brandão (CEFET/RJ), Ronaldo Ribeiro Goldschmidt (IME)

Dia/hora: 14 de agosto de 2020, às 15h.

Sala remota: meet.google.com/mtr-vmkq-wrw

Resumo:

O pré-processamento de dados enfrenta uma questão importante relacionada ao tratamento de dados ausentes. Uma solução possível para resolver esse problema é a imputação hot-deck. Essa técnica possui duas etapas: agrupar registros semelhantes e executar a imputação propriamente dita. Selecionar o melhor algoritmo para imputação é um desafio, diversos algoritmos de aprendizado de máquina são estudados para isso, porém poucos estudos comparam métodos comitês para a etapa de imputação. Este estudo propõe uma solução baseada na imputação hot-deck comparando quatro comitês regressores: Bagging, Adaboost, Gradientboost e Stacked Generalization. Para verificar
sua eficácia, usamos três conjuntos de dados, variando as taxas de ausências de 10% a 30%. Os resultados indicam que o Gradientboost apresenta melhor precisão em um tempo de processamento razoável.

Dissertação