Defesa de dissertação (22/11/2022): Felipe Oliveira Feder
Discente: Felipe Oliveira Feder
Título: Estudo comparativo entre abordagens de representação textual e algoritmos de classificação
Orientador: Gustavo Paiva Guedes e Silva
Banca: Gustavo Paiva Guedes e Silva (CEFET/RJ), Eduardo Bezerra (CEFET/RJ), Geraldo Xexéo (Coppe/UFRJ)
Dia/hora: 22/11/2022 às 9 horas.
Resumo: Estamos vivendo uma revolução tecnológica sem precedentes nos últimos anos. A forma como nós nos relacionamos tem sido – e continuará sendo – impactada de diferentes maneiras. Acompanhando as evoluções em hardware e das tecnologias que nos possibilitam produzir e armazenar dados em volumes impensáveis, são observadas, também, evoluções algorítmicas e metodológicas que nos permitem avançar em busca de um mundo inteiramente novo, mesmo lidando com velhas questões tipicamente humanas. A fronteira do entendimento homem-máquina tem sido empurrada adiante constantemente. O processamento de linguagem natural é a ponte que liga a fala humana a possibilidades, antes inimagináveis, de uma máquina interpretá-la e processá-la devidamente. Os meios de representação textual vêm evoluindo consistentemente nas últimas décadas. O Bag-of-Words (BOW), atrelado ao uso de representações numéricas para palavras, vem sendo utilizado com sucesso na representação textual. No entanto, superando as deficiências do BOW, observamos o surgimento de representações numéricas complexas, geradas por redes neurais profundas, que são capazes de conservar as relações semânticas e sintáticas entre as palavras; os Word Embeddings (WE). A fronteira foi empurrada à frente; novas evoluções, novas aplicações, novos usos. O uso de Modelos de Linguagem Neural (MLN), com os WE, atingiu o estado da arte em diferentes tarefas no processamento de texto. Essa pesquisa compara esses dois métodos de representação de palavras, BOW e WE, e seus usos numa tarefa de classificação binária de polaridade. Foram montados dois grupos de classificadores e foram utilizados quatro conjuntos de dados. O primeiro grupo, formado por modelos n-gram, aqui chamados de Modelos de Aprendizagem de Máquina Tradicionais (MAMT), lidou com representações textuais que se serviram do BOW com TF-IDF e do BOW com LSA. O segundo grupo, formado por MLNs, que são modelos provenientes de redes neurais profundas que lidam com tarefas relacionadas ao processamento de texto, usou os WE e os WE Contextuais para representar os textos que seriam processados. Nos experimentos realizados foi observada a superioridade dos modelos de classificação semântica de texto diante dos modelos n-gram. Apesar disso, a escolha sobre qual técnica de representação textual (BOW ou WE) e tipo de modelo de linguagem usar (n-gram ou MLN) depende do contexto, já que os modelos n-gram, mesmo quando comparados as abordagens mais recentes, apresentam desempenho preditivo satisfatório e podem ser úteis em muitos contextos de uso.