Defesa de dissertação (19/12/2024): Tarsila Gomes Bello Tavares

Título: 
Imputação em cascata no contexto de Inteligência Artificial Centrada em Dados (DCAI).
Orientador: 
Jorge de Abreu Soares
Banca:
Jorge de Abreu Soares (Cefet/RJ), Diego Nunes Brandão (Cefet/RJ), Carlos Eduardo Ribeiro de Mello (Unirio)
Dia/hora:
19 de dezembro de 2024, às 14h.
Local:  
Bloco E, 5o andar, sala E-518
Resumo: 
À medida que o volume global de dados aumenta, é comum encontrar bases de dados com valores ausentes, o que requer a aplicação de técnicas de imputação. Tradicionalmente, estas técnicas abordam cenários univariados, tratando a ausência de valores em uma única coluna. Este estudo propõe uma abordagem de imputação em cascata, que é capaz de tratar valores ausentes em múltiplas colunas, reintegrando valores imputados na base de dados antes da imputação do atributo subsequente, permitindo sua reutilização. Adicionalmente, investigou-se a eventual melhoria da eficiência da imputação pela binarização dos dados, segundo padrões de similaridade de ausência antes da imputação, e quais algoritmos de agrupamento apresentam resultados mais interessantes para diferentes características de bases de dados. Portanto, almeja-se avaliar e comparar o desempenho de uma imputação multivariada que utiliza a abordagem em cascata com uma pré-fase de agrupamento, aplicando diferentes classes de algoritmos dessa natureza, tais como K-modes, Agglomerative Clustering, DBSCAN e a rede neural SOM.
Abstract: 
As the global volume of data increases, it is common to encounter datasets with missing values, demanding the application of imputation techniques. Traditionally, these methods address univariate scenarios, dealing with the absence of values in a single column. This study proposes a cascade imputation approach, capable of handling missing values across multiple columns, reintegrating imputed values into the database before imputing the subsequent attribute, allowing for their reuse. Additionally, the study investigated the potential improvement in imputation efficiency by binarizing data according to patterns of similarity in absence before imputation and identifying which clustering algorithms yield the most interesting results for different dataset characteristics. Therefore, the aim is to evaluate and compare the performance of multivariate imputation using the cascade approach with a pre-clustering phase, applying various classes of algorithms, such as K-modes, Agglomerative Clustering, DBSCAN, and the SOM neural network.

About Jorge Soares

Possui Doutorado em Engenharia de Sistemas e Computação pela COPPE/UFRJ (2007), Mestrado em Engenharia de Sistemas e Computação também pela COPPE/UFRJ (2000), e Bacharelado em Ciência da Computação pela UFRJ (1995). É professor titular do Centro Federal de Educação Tecnológica Celso Suckow da Fonseca - CEFET/RJ, ministrando aulas nos cursos de Mestrado em Ciência da Computação, Bacharelado em Ciência da Computação, Superior de Tecnologia em Sistemas para Internet e Técnico em Informática. Desempenha também a função de avaliador ad hoc de cursos de Informática do INEP/MEC. Possui experiência nas áreas de ciência de dados, sistemas de bancos de dados, pré-processamento de dados - com foco principal em complementação de dados ausentes, padrões frequentes em dados, ETL e armazém de dados, e inteligência de negócios (Business Intelligence), lecionando disciplinas relacionadas a esses temas. Na área de Administração, seu enfoque concentra-se nos aspectos relacionados à tecnologia e sistemas de informação, sistemas integrados de gestão e sistemas de apoio à decisão na geração de vantagem competitiva das organizações. É professor do quadro permanente do Programa de Pós-Graduação em Ciência da Computação do CEFET/RJ. Atuou também entre 2008 e 2016 como docente efetivo do Programa de Pós-Graduação em Ciências Contábeis da Faculdade de Administração e Finanças da UERJ - Universidade do Estado do Rio de Janeiro, tendo desempenhado, dentre outras, a função de Coordenador Adjunto (2013-2014) e Geral (2015-2016) deste último Programa. Desempenha atividades docentes desde 1996. Possui ampla experiência em diversos cargos de gestão universitária, tais como coordenações de cursos de graduação e pós-graduação lato sensu, chefias de departamento, além da direção de unidades acadêmicas e direção de pós-graduação, pesquisa e extensão institucional. Possui experiência profissional não acadêmica em empresas como Embratel, Dataprev e Tribunal Regional Federal da 2ª Região como Analista de Sistemas. Participa como membro de bancas avaliadoras de diversos concursos públicos, tanto de seleção de professores quanto de analistas de sistemas e técnicos de informática.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *