Defesa de dissertação (29/01/2021): Leandro Maia Gonçalves

Discente: Leandro Maia Gonçalves

Título: Imputação Hot-Deck: uma revisão sistemática da literatura

Orientador: Jorge de Abreu Soares

Banca: Jorge de Abreu Soares (presidente), Eduardo Soares Ogasawara (CEFET/RJ) e José Maria da Silva Monteiro Filho (UFC)

Dia/hora: 29 de janeiro de 2021, às 10h.

Sala remota: https://meet.google.com/mkz-opya-skv

Resumo: As organizações têm percebido que investir na transformação de dados em informação com o objetivo de auxiliar o processo de tomada de decisões pode trazer vantagens competitivas. À vista disso, no cenário atual em que os dados crescem em volume, velocidade e variedade, nota-se que tal expansão é acompanhada do aumento de dados ausentes, que podem trazer problemas de interpretação para analistas e pesquisadores. A exclusão destes casos não pode necessariamente ser considerada uma solução, independente do volume dos dados, devido aos seus riscos de geração de vieses ou tendências. Logo, a imputação de dados revela-se uma tarefa fundamental no pré-processamento de dados, capaz de melhorar a sua análise. A imputação hot-deck é uma abordagem que se destaca neste contexto devido à sua capacidade de estimar com melhor precisão e preservar as diferenças individuais entre os sujeitos no processo de imputação. Neste estudo, é apresentada uma revisão sistemática sobre técnicas de imputação hot-deck realizada na base Scopus, com o objetivo de avaliar como ocorre a evolução dos estudos sobre este tema ao longo dos anos. Este trabalho também propõe uma taxonomia que busca classificar, ordenar e estabelecer hierarquias para as técnicas de imputação. Como resultado deste trabalho, verificou-se 63% dos artigos investigados não identificaram adequadamente os mecanismos de ausência em seus experimentos, 72% dos algoritmos de agrupamento utilizados na abordagem hot-deck estão contidos na categoria Partitioning Based, sendo 75% desta representada pelos algoritmos Random hot-deck, K-Nearest-Neighbor e K-means. Com relação à reprodutibilidade dos experimentos, 30% dos artigos apresentaram pseudocódigos dos algoritmos utilizados, 42% utilizaram conjuntos de dados públicos, 45% compararam os resultados da imputação com o conjunto de dados original. Destaca-se que apenas 1% dos artigos apresentou código fonte em repositório aberto, deixando uma importante lacuna no que tange à reprodutibilidade de experimentos nesta área.

Comments are closed.