Defesa de dissertação (31/01/2020): Ivair Nobrega Luques

Discente: Ivair Nobrega Luques

Título: Inteligência Computacional Aplicada à Detecção Intrínseca de Plágio em Documentos Textuais

Orientadores: Eduardo Bezerra (orientador), Pedro Henrique González Silva (co-orientador)

Banca: Eduardo Bezerra (presidente), Pedro Henrique González Silva (CEFET/RJ), Jorge de Abreu Soares (CEFET/RJ),  Igor Machado Coelho (UFF)

Dia/Hora: 31 de janeiro de 2020/ 10h

Sala: Auditório V – Bloco E

Resumo:

O acesso à produção acadêmica na forma de documentos relacionados ao ensino e à pesquisa científica tem sido fomentado por movimentos de divulgação de documentos digitais. No entanto, o uso indevido desses documentos está contribuindo para o crescimento de casos de plágio. Redes neurais artificiais têm obtido resultados surpreendentes na solução de vários problemas de na área de Processamento de Linguagem Natural. Inspirados por isso, neste trabalho, aplicamos uma combinação simples, porém eficaz, de técnicas de Aprendizagem Profunda à tarefa de detecção intrínseca de plágio. Em particular, usamos Skip-Thoughts, um modelo de incorporação para representar cada frase de um documento como um vetor multidimensional. Depois disso, treinamos uma rede neural siamesa usando como conjunto de treinamento uma coleção de pares de frases (cada frase representada como um vetor Skip-Thoughts) extraída de documentos no corpus PAN11. Em seguida, modelamos cada documento como um grafo ponderado e não-dirigido para viabilizar a aplicação do algoritmo de correlação de clusters, que possibilita identificar passagens potencialmente plagiadas. Nossos experimentos computacionais mostram que o modelo neural de rede siamesa resultante é capaz de reconhecer diferenças estilísticas entre frases em um documento. Além disso, a identificação de passagens potencialmente plagiadas por meio da abordagem de correlação de clusters produz resultados comparáveis aos da literatura.

Dissertação