Defesa de dissertação (14/08/2020): Thiago da Silva Pereira

Defesa de dissertação (14/08/2020): Thiago da Silva Pereira

Discente: Thiago da Silva Pereira

Título: Imputação de dados hot-deck: uma comparação entre comitês de regressão (Hot-Deck Data Imputation: a comparison among ensemble methods)

Orientadores:  Jorge de Abreu Soares (orientador) e Eduardo Bezerra da Silva (CEFET/RJ) (coorientador).

Banca: Jorge de Abreu Soares (presidente), Eduardo Bezerra da Silva (CEFET/RJ), Diego Nunes Brandão (CEFET/RJ) e Ronaldo Ribeiro Goldschmidt (IME)

Dia/hora: 14 de agosto de 2020, às 15h.

Sala remota: meet.google.com/mtr-vmkq-wrw

Resumo:

O problema da ausência de dados em conjuntos de dados é relevante e dentre as maneiras de se lidar com este problema, a substituição do valor ausente por outro (também chamada de imputação de dados) produz um ganho substancial no aprendizado de máquina subsequente. Diversos algoritmos de aprendizado de máquina são estudados para a imputação de dados, porém poucos estudos utilizam métodos ensemble para a geração do dado a ser imputado. Este trabalho pretende realizar uma comparação entre diversos métodos ensemble (bagging, adaboost, gradientboost e stacked generalization) para imputação de dados, executando as simulações em três conjuntos de dados diferentes (AIDS Deaths – National Health and Family Planning Commission of China, Breast Cancer e Photometric redshift estimation) com 10%, 20% e 30% de dados ausentes, combinando a execução das tarefas de agrupamento e redução de dimensionalidade com percentuais de redução de 10%, 20% e 30% antes da imputação.

Abstract:

Preprocessing data faces an important question related to deal with missing data. A possible solution to resolve this challenge is hot-deck imputation. This technique has two steps: group similar records and performs imputation. Selecting the best algorithm for imputation is a challenge. Several machine learning algorithms are studied for data imputation, however few studies compare ensemble methods for the imputation stage. This study proposes a solution based on hot-deck imputation comparing four ensemble regressors: Bagging, Adaboost, Gradientboost, and Stacked Generalization. To ascertain effectiveness, we have used three datasets, varying missing rates from 10% to 30%. Results measuring the precision of imputed data by both techniques indicate that the Gradientboost reveals better precision in reasonable processing time.

 

About Jorge Soares

Possui Doutorado em Engenharia de Sistemas e Computação pela COPPE/UFRJ (2007), Mestrado em Engenharia de Sistemas e Computação também pela COPPE/UFRJ (2000), e Bacharelado em Ciência da Computação pela UFRJ (1995). É professor titular do Centro Federal de Educação Tecnológica Celso Suckow da Fonseca - CEFET/RJ, ministrando aulas nos cursos de Mestrado em Ciência da Computação, Bacharelado em Ciência da Computação, Superior de Tecnologia em Sistemas para Internet e Técnico em Informática. Desempenha também a função de avaliador ad hoc de cursos de Informática do INEP/MEC. Possui experiência nas áreas de ciência de dados, sistemas de bancos de dados, pré-processamento de dados - com foco principal em complementação de dados ausentes, padrões frequentes em dados, ETL e armazém de dados, e inteligência de negócios (Business Intelligence), lecionando disciplinas relacionadas a esses temas. Na área de Administração, seu enfoque concentra-se nos aspectos relacionados à tecnologia e sistemas de informação, sistemas integrados de gestão e sistemas de apoio à decisão na geração de vantagem competitiva das organizações. É professor do quadro permanente do Programa de Pós-Graduação em Ciência da Computação do CEFET/RJ. Atuou também entre 2008 e 2016 como docente efetivo do Programa de Pós-Graduação em Ciências Contábeis da Faculdade de Administração e Finanças da UERJ - Universidade do Estado do Rio de Janeiro, tendo desempenhado, dentre outras, a função de Coordenador Adjunto (2013-2014) e Geral (2015-2016) deste último Programa. Desempenha atividades docentes desde 1996. Possui ampla experiência em diversos cargos de gestão universitária, tais como coordenações de cursos de graduação e pós-graduação lato sensu, chefias de departamento, além da direção de unidades acadêmicas e direção de pós-graduação, pesquisa e extensão institucional. Possui experiência profissional não acadêmica em empresas como Embratel, Dataprev e Tribunal Regional Federal da 2ª Região como Analista de Sistemas. Participa como membro de bancas avaliadoras de diversos concursos públicos, tanto de seleção de professores quanto de analistas de sistemas e técnicos de informática.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *