Defesa de dissertação (14/08/2020): Thiago da Silva Pereira
Discente: Thiago da Silva Pereira
Título: Imputação de dados Hot-Deck: uma comparação entre comitês de regressão
Orientadores: Jorge de Abreu Soares (orientador), Eduardo Bezerra da Silva (CEFET/RJ) (coorientador).
Banca: Jorge de Abreu Soares (presidente), Eduardo Bezerra da Silva (CEFET/RJ), Diego Nunes Brandão (CEFET/RJ), Ronaldo Ribeiro Goldschmidt (IME)
Dia/hora: 14 de agosto de 2020, às 15h.
Sala remota: meet.google.com/mtr-vmkq-wrw
Resumo:
O pré-processamento de dados enfrenta uma questão importante relacionada ao tratamento de dados ausentes. Uma solução possível para resolver esse problema é a imputação hot-deck. Essa técnica possui duas etapas: agrupar registros semelhantes e executar a imputação propriamente dita. Selecionar o melhor algoritmo para imputação é um desafio, diversos algoritmos de aprendizado de máquina são estudados para isso, porém poucos estudos comparam métodos comitês para a etapa de imputação. Este estudo propõe uma solução baseada na imputação hot-deck comparando quatro comitês regressores: Bagging, Adaboost, Gradientboost e Stacked Generalization. Para verificar
sua eficácia, usamos três conjuntos de dados, variando as taxas de ausências de 10% a 30%. Os resultados indicam que o Gradientboost apresenta melhor precisão em um tempo de processamento razoável.