Defesa de dissertação (23/08/2022): Thiago Soares de Paula
Discente: Thiago Soares de Paula
Título: Classificação de Notícias de Fraude e Corrupção em Português para Instauração de Processo Investigativo
Orientador: Gustavo Paiva Guedes e Silva
Data: 23 de agosto de 2022
Resumo: Os escândalos de fraude são fenômenos que podem gerar impactos imensuráveis nas esferas econômicas e reputacionais. Quando uma fraude é descoberta, os fatos normalmente vão a público por meio dos veículos de mídia, o que gera uma repercussão negativa muito grande. As empresas preocupadas com suas imagens têm investido cada vez mais esforços para minimizar ou atenuar os efeitos da fraude. Uma das tarefas que visa mitigar os efeitos da fraude é o monitoramento de mídias sobre fraude e corrupção. Essa tarefa é fundamental para a avaliação e o monitoramento dos riscos do negócio no mundo corporativo, pois a todo momento surgem fatos que podem trazer prejuízos à empresa e suas contrapartes. Uma vez veiculados escândalos de fraude em sites de notícias, os impactos podem gerar consequências negativas `as imagens das empresas. Portanto, essas informações precisam ser coletadas e analisadas e, se necessário, encaminhadas para processo investigativo. No entanto, o grande volume de notícias publicadas por dia inviabiliza uma avaliação manual diária. Este trabalho apresenta uma abordagem que visa automatizar esse processo, o que inclui coletar notícias da web por meio de web crawlers dos principais veículos de mídias do Brasil, construir um corpus anotado em português sobre fraude e corrupção e criar um modelo de aprendizado de máquina cuja função é classificar notícias em relevantes ou não para abertura de investigação.