Defesa de dissertação (28/03/2019): Flavio Matias Damasceno de Carvalho

Discente: Flavio Matias Damasceno de Carvalho

Título: Desenvolvimento do Dicionário LIWC 2015 em Português do Brasil

Orientadores: Gustavo Paiva Guedes e Silva (orientador)

Banca: Gustavo Paiva Guedes e Silva (CEFET/RJ) (presidente), Eduardo Soares Ogasawara (CEFET/RJ), Joel André Ferreira dos Santos (CEFET/RJ), Lilian Vieira Ferrari (UFRJ)

Dia/Hora: 28 de março / 10h

Sala: Auditório V

Resumo

Uma grande variedade e quantidade de textos são escritos e armazenados em formato digital devido ao desenvolvimento e disseminação de dispositivos computacionais. Dessa grande quantidade de dados textuais, informações úteis podem ser obtidas com técnicas e metodologias da área de Mineração de Texto. Uma dessas metodologias consiste em analisar textos com o Linguistic Inquiry and Word Count, um programa que possui várias versões que foram melhoradas ao longo dos anos. Além de utilizar o arquivo de dicionário padrão, o programa pode utilizar dicionários personalizados ou dicionários traduzidos para outros idiomas. Na utilização com o dicionário traduzido para o português, baseado no dicionário em inglês da versão 2007 do LIWC, as avaliações mostram questões relacionadas ao desempenho da detecção de valência negativa, junto com erros ortográficos e palavras com problemas relacionados à categorização, o que impacta negativamente os resultados obtidos. Desenvolvemos este trabalho observando um aumento no uso desse recurso em estudos acadêmicos nos últimos anos, evidenciado pelo crescente número de citações ao artigo de publicação do dicionário com a tradução para o português. Como não temos conhecimento do desenvolvimento de uma versão mais recente em português e reconhecendo a necessidade de métodos para analisar texto na língua portuguesa, iniciamos o desenvolvimento de uma nova versão em português do dicionário para o LIWC. Trabalhamos com o conjunto de palavras disponíveis na versão de 2015 em inglês e produzimos um novo dicionário compatível com a última versão disponível do programa. Para verificar o desempenho em tarefas de classificação, realizamos experimentos para classificar: (i) autores de textos e (ii) conteúdo das publicações nas redes sociais de acordo com a polaridade do sentimento. As medidas utilizadas para avaliar os resultados obtidos pelos algoritmos de classificação empregados apresentaram valores maiores na nova versão em português do dicionário, comparando com o dicionário atual. Esses experimentos sugerem que o ajuste de palavras a categorias que correspondam adequadamente às características linguísticas e psicológicas permite melhores resultados nas tarefas associadas às áreas de Computação Afetiva e Análise de Sentimentos.

Dissertação