Discente: Thiago da Silva Pereira
Título: Imputação de dados hot-deck: uma comparação entre comitês de regressão (Hot-Deck Data Imputation: a comparison among ensemble methods)
Orientadores: Jorge de Abreu Soares (orientador) e Eduardo Bezerra da Silva (CEFET/RJ) (coorientador).
Banca: Jorge de Abreu Soares (presidente), Eduardo Bezerra da Silva (CEFET/RJ), Diego Nunes Brandão (CEFET/RJ) e Ronaldo Ribeiro Goldschmidt (IME)
Dia/hora: 14 de agosto de 2020, às 15h.
Sala remota: meet.google.com/mtr-vmkq-wrw
Resumo:
O problema da ausência de dados em conjuntos de dados é relevante e dentre as maneiras de se lidar com este problema, a substituição do valor ausente por outro (também chamada de imputação de dados) produz um ganho substancial no aprendizado de máquina subsequente. Diversos algoritmos de aprendizado de máquina são estudados para a imputação de dados, porém poucos estudos utilizam métodos ensemble para a geração do dado a ser imputado. Este trabalho pretende realizar uma comparação entre diversos métodos ensemble (bagging, adaboost, gradientboost e stacked generalization) para imputação de dados, executando as simulações em três conjuntos de dados diferentes (AIDS Deaths – National Health and Family Planning Commission of China, Breast Cancer e Photometric redshift estimation) com 10%, 20% e 30% de dados ausentes, combinando a execução das tarefas de agrupamento e redução de dimensionalidade com percentuais de redução de 10%, 20% e 30% antes da imputação.
Abstract:
Preprocessing data faces an important question related to deal with missing data. A possible solution to resolve this challenge is hot-deck imputation. This technique has two steps: group similar records and performs imputation. Selecting the best algorithm for imputation is a challenge. Several machine learning algorithms are studied for data imputation, however few studies compare ensemble methods for the imputation stage. This study proposes a solution based on hot-deck imputation comparing four ensemble regressors: Bagging, Adaboost, Gradientboost, and Stacked Generalization. To ascertain effectiveness, we have used three datasets, varying missing rates from 10% to 30%. Results measuring the precision of imputed data by both techniques indicate that the Gradientboost reveals better precision in reasonable processing time.