Defesa de dissertação (19/12/2024): Tarsila Gomes Bello Tavares
Título:
Imputação em cascata no contexto de Inteligência Artificial Centrada em Dados (DCAI).
Orientador:
Jorge de Abreu Soares
Banca:
Jorge de Abreu Soares (Cefet/RJ), Diego Nunes Brandão (Cefet/RJ), Carlos Eduardo Ribeiro de Mello (Unirio)
Dia/hora:
19 de dezembro de 2024, às 14h.
Local:
Bloco E, 5o andar, sala E-518
Resumo:
À medida que o volume global de dados aumenta, é comum encontrar bases de dados com valores ausentes, o que requer a aplicação de técnicas de imputação. Tradicionalmente, estas técnicas abordam cenários univariados, tratando a ausência de valores em uma única coluna. Este estudo propõe uma abordagem de imputação em cascata, que é capaz de tratar valores ausentes em múltiplas colunas, reintegrando valores imputados na base de dados antes da imputação do atributo subsequente, permitindo sua reutilização. Adicionalmente, investigou-se a eventual melhoria da eficiência da imputação pela binarização dos dados, segundo padrões de similaridade de ausência antes da imputação, e quais algoritmos de agrupamento apresentam resultados mais interessantes para diferentes características de bases de dados. Portanto, almeja-se avaliar e comparar o desempenho de uma imputação multivariada que utiliza a abordagem em cascata com uma pré-fase de agrupamento, aplicando diferentes classes de algoritmos dessa natureza, tais como K-modes, Agglomerative Clustering, DBSCAN e a rede neural SOM.
Abstract:
As the global volume of data increases, it is common to encounter datasets with missing values, demanding the application of imputation techniques. Traditionally, these methods address univariate scenarios, dealing with the absence of values in a single column. This study proposes a cascade imputation approach, capable of handling missing values across multiple columns, reintegrating imputed values into the database before imputing the subsequent attribute, allowing for their reuse. Additionally, the study investigated the potential improvement in imputation efficiency by binarizing data according to patterns of similarity in absence before imputation and identifying which clustering algorithms yield the most interesting results for different dataset characteristics. Therefore, the aim is to evaluate and compare the performance of multivariate imputation using the cascade approach with a pre-clustering phase, applying various classes of algorithms, such as K-modes, Agglomerative Clustering, DBSCAN, and the SOM neural network.