Defesa de dissertação (23/08/2022): Thiago Soares de Paula

Discente: Thiago Soares de Paula

Título: Classificação de Notícias de Fraude e Corrupção em Português para Instauração de Processo Investigativo

Orientador: Gustavo Paiva Guedes e Silva

Data: 23 de agosto de 2022

Resumo: Os escândalos de fraude são fenômenos que podem gerar impactos imensuráveis nas esferas econômicas e reputacionais. Quando uma fraude é descoberta, os fatos normalmente vão a público por meio dos veículos de mídia, o que gera uma repercussão negativa muito grande. As empresas preocupadas com suas imagens têm investido cada vez mais esforços para minimizar ou atenuar os efeitos da fraude. Uma das tarefas que visa mitigar os efeitos da fraude é o monitoramento de mídias sobre fraude e corrupção. Essa tarefa é fundamental para a avaliação e o monitoramento dos riscos do negócio no mundo corporativo, pois a todo momento surgem fatos que podem trazer prejuízos à empresa e suas contrapartes. Uma vez veiculados escândalos de fraude em sites de notícias, os impactos podem gerar consequências negativas `as imagens das empresas. Portanto, essas informações precisam ser coletadas e analisadas e, se necessário, encaminhadas para processo investigativo. No entanto, o grande volume de notícias publicadas por dia inviabiliza uma avaliação manual diária. Este trabalho apresenta uma abordagem que visa automatizar esse processo, o que inclui coletar notícias da web por meio de web crawlers dos principais veículos de mídias do Brasil, construir um corpus anotado em português sobre fraude e corrupção e criar um modelo de aprendizado de máquina cuja função é classificar notícias em relevantes ou não para abertura de investigação.