Categoria:Notícias

Aluno do Grupo de Robótica coordenado por docente do PPCIC é premiado na OBI

O aluno do médio/técnico Erick Gaiote integrante do Grupo de Robótica Maracanã coordenado pelo docente João Quadros do PPCIC recebeu a premiação de Honra ao Mérito na modalidade Programação Nível 2 da Olimpíada Brasileira de Informática (OBI) de 2019. Essa é mais uma  conquista do trabalho do professor João Quadros articulado pela verticalização da educação no CEFET/RJ, e virou notícia no site da instituição (confira a notícia na íntegra aqui).

Aluno do PPCIC desenvolve Pesquisa sobre Análise de Dados em Evasão na UFF

O aluno Gustavo Alexandre do PPCIC, orientado pelo professor Diego Brandão e responsável pela área de Gestão e Governança de Dados na TI da Universidade Federal Fluminense (UFF), está desenvolvendo no seu trabalho de mestrado um modelo de predição capaz de identificar alunos com risco de evasão. A pesquisa foi publicada no Simpósio Brasileiro de Banco de Dados (SBBD) deste ano e ganhou destaque com a divulgação do trabalho no site da UFF.

Também são colaboradores da pesquisa os docentes Diego Haddad (CEFET/RJ), Kele Belloze (CEFET/RJ)  e Luiz Tarracata (CEFET/RJ).

Confira a notícia completa em Produção de conhecimento: estudo sobre evasão no ensino superior.

Defesa de dissertação (16/12/2019): Alexandre Cunha

Discente: Alexandre Cunha

Título: Detecção de Sinais de eventos Adversos de Medicamentos em Textos Informais

Orientador: Gustavo Paiva Guedes e Silva (orientador)

Banca: Gustavo Paiva Guedes e Silva (presidente), Eduardo Ogasawara (CEFET/RJ), Kele Belloze (CEFET/RJ), Fellipe Duarte (UFRRJ)

Dia/Hora: 16 de dezembro de 2019 / 14h

Sala: Auditório 5 (Bloco E, 5o andar)

Resumo:

A vigilância em saúde, conhecida como farmacovigilância, se define como: “a ciência e as atividades relativas à identificação, avaliação, compreensão e prevenção dos efeitos adversos ou qualquer outro problema relacionado com medicamentos” WHO [2002].  Eventos adversos a medicamentos são responsáveis por aproximadamente 25% dos pacientes internados no atendimento primário, sendo considerados graves em 13% dos casos Meyboom et al. [1999]. A farmacovigilância atua no período de pós-aprovação do medicamento, podendo evitar e atenuar certos eventos adversos. O acesso às várias categorias de dados de saúde no período atual, expande a capacidade de análise para pesquisa relacionada a farmacovigilância. Com o advento das técnicas de mineração de texto (MT), processamento de linguagem natural (PLN), aprendizagem de máquina (AM) e extração da informação (EI), houve a possibilidade de extração de conhecimento de textos não estruturados e informais, obtidos de mídias sociais. O objetivo desta dissertação é, ao utilizar a extração da informação, criar um modelo a partir da MT e PLN e detectar sinais de eventos adversos em medicamentos nos textos da mídia social (Twitter) escritos em português do Brasil. A dissertação apresenta extensa revisão bibliográfica sobre os conceitos citados. Guiando o processo, foi desenvolvida uma abordagem baseada na metodologia de MT para identificar possíveis sinais de eventos adversos. Esse processo foi implementado com auxílio do CoreNLP. Para essa dissertação, foi escolhido o idioma português brasileiro, para o qual não existe suporte nativo do CoreNLP, dessa forma,foram implementados o analisador sintático (Pos-Tagger) e o parse de dependência (DEP-PARSER) em português brasileiro, bem como, treinado um modelo de detecção de entidades nomeadas no domínio da farmacovigilância em português Brasileiro, utilizando AM em uma abordagem híbrida. Foi proposto um algoritmo para efetiva detecção de sinal de eventos adversos em medicamentos. Complementa-se a metodologia com a experimentação dos modelos criados e do algoritmo desenvolvido. Os resultados representem um esforço inicial na tentativa de atuar sobre o idioma português brasileiro no campo da farmacovigilância. Os experimentos abriram caminho para fomentar o tema e fornecer um instrumental para caminhar em direção ao estado da arte, especificamente para a língua portuguesa.

Dissertação

 [:en]Discente: Alexandre Cunha

Título: Detecção de Sinais de eventos Adversos de Medicamentos em Textos Informais

Orientador: Gustavo Paiva Guedes e Silva (orientador)

Banca: Gustavo Paiva Guedes e Silva (presidente), Eduardo Ogasawara (CEFET/RJ), Kele Belloze (CEFET/RJ), Fellipe Duarte (UFRRJ)

Dia/Hora: 16 de dezembro de 2019 / 14h

Sala: Auditório 5 (Bloco E, 5o andar)

Resumo:

A vigilância em saúde, conhecida como farmacovigilância, se define como: “a ciência e as atividades relativas à identificação, avaliação, compreensão e prevenção dos efeitos adversos ou qualquer outro problema relacionado com medicamentos” WHO [2002].  Eventos adversos a medicamentos são responsáveis por aproximadamente 25% dos pacientes internados no atendimento primário, sendo considerados graves em 13% dos casos Meyboom et al. [1999]. A farmacovigilância atua no período de pós-aprovação do medicamento, podendo evitar e atenuar certos eventos adversos. O acesso às várias categorias de dados de saúde no período atual, expande a capacidade de análise para pesquisa relacionada a farmacovigilância. Com o advento das técnicas de mineração de texto (MT), processamento de linguagem natural (PLN), aprendizagem de máquina (AM) e extração da informação (EI), houve a possibilidade de extração de conhecimento de textos não estruturados e informais, obtidos de mídias sociais. O objetivo desta dissertação é, ao utilizar a extração da informação, criar um modelo a partir da MT e PLN e detectar sinais de eventos adversos em medicamentos nos textos da mídia social (Twitter) escritos em português do Brasil. A dissertação apresenta extensa revisão bibliográfica sobre os conceitos citados. Guiando o processo, foi desenvolvida uma abordagem baseada na metodologia de MT para identificar possíveis sinais de eventos adversos. Esse processo foi implementado com auxílio do CoreNLP. Para essa dissertação, foi escolhido o idioma português brasileiro, para o qual não existe suporte nativo do CoreNLP, dessa forma,foram implementados o analisador sintático (Pos-Tagger) e o parse de dependência (DEP-PARSER) em português brasileiro, bem como, treinado um modelo de detecção de entidades nomeadas no domínio da farmacovigilância em português Brasileiro, utilizando AM em uma abordagem híbrida. Foi proposto um algoritmo para efetiva detecção de sinal de eventos adversos em medicamentos. Complementa-se a metodologia com a experimentação dos modelos criados e do algoritmo desenvolvido. Os resultados representem um esforço inicial na tentativa de atuar sobre o idioma português brasileiro no campo da farmacovigilância. Os experimentos abriram caminho para fomentar o tema e fornecer um instrumental para caminhar em direção ao estado da arte, especificamente para a língua portuguesa.

Dissertation

 

Manual de Manutenção e Suporte a Drones

O Projeto Grupo Robótica Maracanã, coordenado pelo prof. João Quadros do PPCIC, produziu o Manual de Manutenção e Suporte de Drones F450 em 2017, que recebeu atualizações em 2018 e 2019. O manual contém informações úteis a quem deseja construir, configurar e pilotar um drone F450 e pode ser acessado através deste link.

 

Artigo de Professor do PPCIC recebe Menção Honrosa em Evento

O artigo do professor Felipe Rocha Henriques do PPCIC, intitulado “Performance Evaluation and Comparison of Default and Small Private Key Rainbow Digital Signature Scheme for IoT Devices“, recebeu menção honrosa no XXV Simpósio Brasileiro de Sistemas Multimídia e Web (WebMedia 2019). O evento foi realizado entre os dias 29  de outubro e 01 de novembro no CEFET/RJ.
Também são coautores do trabalho Matheus Dornelles (CEFET/RJ) e Pedro Lara (CEFET/RJ).

Dissertação de Mestrado do PPCIC foi premiada em 1º lugar no Concurso de Teses e Dissertações durante o WebMedia 2019

A dissertação de mestrado do Raphael Abreu, que concluiu seu Mestrado em 2018 no PPCIC, foi premiada em 1º lugar no Concurso de Teses e Dissertações durante o XXV  Simpósio Brasileiro de Sistemas Multimídia e Web (WebMedia 2019). O evento aconteceu entre os dias 29 de outubro e 01 de novembro no CEFET/RJ. A dissertação intitulada “Mais de um sentido: Facilitando a autoria, sincronização e execução de efeitos sensoriais em linguagens multimídia“, foi orientada pelos docentes Joel dos Santos e Eduardo Bezerra do PPCIC.

 

Equipes de Robótica do CEFET/RJ participam de Competição noticiada em Programa de TV

As duas equipes, a Winged Wolves Sr e a Winged Wolves Jr, do Projeto Grupo Robótica Maracanã (PGRM) do CEFET/RJ – Maracanã apareceram no quadro “Hoje é dia de drone” do programa “Como Será?” com Sandra Annenberg da Rede Globo. A reportagem exibida em 19/10/2019 foi sobre a Competição Fórmula Drone 2019 que contou com a participação das nossas equipes. A competição é patrocinada pela SAE Brasil e foi realizada entre os dias 05 e 08 de setembro de 2019 na Universidade Federal de Itajubá (MG). O docente João Quadros do PPCIC é o chefe desse projeto.

Confira a reportagem: Hoje é dia de drone: a competição

Para maiores informações sobre esse projeto, acesse Projeto Grupo Robótica Maracanã (PGRM).

Artigo de docente do PPCIC é premiado como “best paper” pela Sociedade Brasileira de Robótica

O docente Diego Haddad do PPCIC conseguiu o prêmio de melhor artigo do LARS/SBR 2019, o maior evento de robótica da América Latina, que aconteceu entre os dias 22 e 26 de outubro na Universidade Federal do Rio Grande (FURG) com o trabalho intitulado “A novel sequential activation method for the locomotion of quadrupedal soft robots” (e acessível em https://ieeexplore.ieee.org/document/9018579).

O evento internacional foi composto por diversos subeventos: a Mostra Nacional de Robótica (MNR); as finais da Olimpíada Brasileira de Robótica (OBR); a Competição Brasileira de Robótica (CBR), a Competição de Robótica Latino-americana (LARC); o Workshop de Robótica na Educação (WRE); o Simpósio Brasileiro de Robótica (SBR); e o Simpósio Latino-americano de Robótica (LARS).

Promovido pela Sociedade Brasileira de Computação (SBC), pelo Institute of Electrical and Electronic Engineers (IEEE) e pelo RobCup Brasil, o evento visa promover um abrangente encontro científico na área de Robótica Inteligente. A programação incluiu sessões técnicas de apresentação oral de trabalhos completos e palestras técnicas de reconhecida importância na área.

Defesa de dissertação (13/11/2019): Leonardo da Silva Moreira

Discente: Leonardo da Silva Moreira

Título: Evaluation of Data Preprocessing Methods for Predicting Brazilian Flight Delays

Orientador: Jorge de Abreu Soares (orientador), Eduardo Soares Ogasawara (co-orientador)

Banca: Jorge de Abreu Soares (presidente), Eduardo Soares Ogasawara (CEFET/RJ), Eduardo Bezerra da Silva (CEFET/RJ), Leonardo Gresta Paulino Murta (IC/UFF)

Dia/Hora: 13 de novembro de 2019 /14 horas

Sala: E-522

Resumo:

Em 2016, as receitas do setor de serviços aéreos do Brasil alcançaram um recorde histórico de receita de R$35,59 bilhões, transportando 109,6 milhões de passageiros de acordo com levantamento da Agência Nacional de Aviação Civil (ANAC). Considerando esse cenário, atrasos nos voos causam vários inconvenientes para as companhias aéreas, aeroportos e passageiros como ocorreram entre 2009 e 2015, onde cerca de 22% dos voos domésticos realizados no Brasil sofreram atrasos superiores a 15 minutos. A previsão desses atrasos é fundamental para mitigar sua ocorrência e otimizar o processo de tomada de decisão de um sistema de transporte aéreo. Particularmente, companhias aéreas, aeroportos e usuários podem estar mais interessados em saber quando é provável que ocorram atrasos do que a previsão precisa de quando não ocorrerão. Neste contexto, esta pesquisa apresenta uma avaliação experimental de métodos de pré-processamento de dados para modelos de classificação de aprendizado de máquina para a predição dos atrasos aéreos, de forma a identificar quais métodos e combinações destes métodos podem auxiliar na melhora da predição e dos resultados do classificador sob uma distribuição desequilibrada de classes de atraso. Para isto a metodologia utilizada inclui a integração de dados aéreos e meteorológicos, etapas de pré-processamento [limpeza, transformação, redução] e finalmente a comparação da predição de dados a partir destes diferentes métodos de pré-processamento. Particularmente, esta pesquisa contribui com a análise de um espectro de métodos de pré-processamento de dados quando comparado à revisão bibliográfica, focando especialmente a distribuição das classes de atraso. Incluem-se entre os objetivos deste trabalho a verificação mais detalhada em relação aos atributos do classificador,a normalização e discretização, principalmente no que diz respeito à faixa de parâmetros do filtro.

Dissertação

 [:en]Student: Leonardo da Silva Moreira

Title: Evaluation of Data Preprocessing Methods for Predicting Brazilian Flight Delays

Advisors: Jorge de Abreu Soares (advisor), Eduardo Soares Ogasawara (co-advisor)

Committee: Jorge de Abreu Soares (president), Eduardo Soares Ogasawara (CEFET/RJ), Eduardo Bezerra da Silva (CEFET/RJ), Leonardo Gresta Paulino Murta (IC/UFF)

Day/Time: November 13, 2019 / 14h

Room: E-522

Abstract:

In 2016, revenues from Brazil’s air services sector reached record revenue of $ R$ 35.59$ billion, transporting 109.6 million passengers, according to a survey by the National Civil Aviation Agency (ANAC). Considering this scenario, delays in flights cause several inconveniences to airlines, airports, and passengers as they occurred between 2009 and 2015, where about 22% of domestic flights made in Brazil were delayed for more than 15 minutes. Predicting these delays is critical to mitigate their occurrence and optimize the decision-making process of an air transport system. In particular, airlines, airports, and users may be more interested in knowing when delays are likely to occur than the forecast needs to know when they will not occur. In this context, this research presents an experimental evaluation of data preprocessing methods for machine learning classification models for the prediction of flight delays, in order to identify which methods and combinations of these methods can help improve prediction and results of the classifier under an unbalanced distribution of delay classes. For this, the methodology used includes the integration of aerial and meteorological data, pre-processing steps [cleaning, transformation, reduction] and finally the comparison of data prediction from these different pre-processing methods. In particular, this research contributes to the analysis of a spectrum of data preprocessing methods when compared to the bibliographic review, especially focusing on the distribution of delay classes. Among the objectives of this work are the more detailed verification in relation to the attributes of the classifier, the normalization, and discretization, mainly with respect to the range of parameters of the filter.

Dissertation

 

Artigo de discente do Programa recebe prêmio de melhor artigo do SBBD 2019 (short, vision, industry)

O Simpósio Brasileiro de Banco de Dados (http://sbbd.org.br/2019) é o evento mais importante de Banco de Dados do Brasil. Neste ano, o discente Arthur Ronald e os Professores Eduardo Ogasawara e Kele Belloze receberam o prêmio de best paper (short, vision, industry) do SBBD 2019 com o trabalho intititulado “Modelo autorregressivo de integração adaptativa”.

Título: Modelo autorregressivo de integração adaptativa

Resumo:

Diversas técnicas de preprocessamento combinadas a modelos de séries temporais vêm sendo utilizadas para previsão de séries temporais não-estacionárias. O estudo das propriedades matemáticas e estatísticas dos dados e das técnicas de preprocessamento pode auxiliar no ajustamento de modelos de aprendizado de máquina. Tal estudo, entretanto, muitas vezes não é facilmente obtido. Modelos lineares, por sua vez, possibilitam a interpretação de tais propriedades. Este artigo introduz e analisa, por meio de prova de conceito, um novo modelo linear aplicado a séries estacionárias construídas com base em normalização adaptativa. O modelo viabiliza o uso de modelos autorregressivos em cenários de janelas deslizantes que preservam as propriedades da série original, e permitem acompanhar a sua inércia. O modelo foi capaz de apresentar desempenho de previsão superior a outros modelos lineares consolidados na literatura, principalmente em horizontes de curto-prazo.

 

 

Apresentação

Artigo

Temas de Pesquisa dos Docentes

Nesta página encontram-se os vídeos dos temas de pesquisa dos docentes permanentes do Programa que estão oferecendo vagas no processo seletivo.

 

Diego Brandão

 

Diego Haddad

https://youtu.be/SsPd5kO6yNM

 

Eduardo Bezerra

Eduardo Ogasawara

https://youtu.be/BcGEi66qWMA

 

Gustavo Guedes

 

João Quadros

 

Joel Santos

 

Kele Belloze

 

Laura Assis

 

Pedro Gonzalez

 

Rafaelli Coutinho

 

Docentes do PPCIC estão na organização do SBrT 2019

O Simpósio Brasileiro de Telecomunicações e Processamento de Sinais é organizado pela Sociedade Brasileira de Telecomunicações (SBrT). A SBrT foi fundada em 1983, e é uma sociedade científica sem fins lucrativos que reúne profissionais dos setores acadêmico, industrial e de serviços de telecomunicações e áreas afins. Em setembro de 1983, realizou-se o primeiro Simpósio Brasileiro de Telecomunicações no Rio de Janeiro. Desde então a Sociedade Brasileira de Telecomunicações organiza anualmente o Simpósio Brasileiro de Telecomunicações (SBrT), que se tornou o fórum de referência para os profissionais do setor. Em sua trigésima sétima edição, o Simpósio Brasileiro de Telecomunicações e Processamento de Sinais será realizado em Petrópolis/RJ entre os dias 29 de setembro e 02 de outubro de 2019. O tema geral do SBrT em 2019 é Comunicação, Aprendizado e Cooperação entre Máquinas, Objetos e Humanos. Esta edição do SBrT contará com a participação dos seguintes docentes do PPCIC:
  • prof. Diego Barreto Haddad, como Coordenador de Minicursos;
  • prof. Felipe da Rocha Henriques, como Coordenador Local.
Mais informações sobre o evento em: http://sbrt.org.br/sbrt2019/

Projetos aprovados para apoio ao WebMedia 2019

O professor Joel Santos teve aprovados os projetos CAPES PAEP (Edital 07/2019) e FAPERJ APQ2 (Edital 03/2019) para apoio a eventos científicos. Ambos os projetos apoiarão a realização do XXV Simpósio Brasileiro de Sistemas Multimídia e Web (WebMedia 2019) a ser realizado no CEFET/RJ de 29 de outubro a 1 de novembro.

Vagas para alunos ouvintes

Já está disponível o quantitativo de vagas e critérios para seleção de alunos ouvintes para o terceiro trimestre de 2019. Mais informações na página de alunos ouvintes.

Projeto aprovado no Edital nº 01/2019 do ECG/TCE-RJ

Os professores Eduardo Bezerra e Leonardo Lima, juntamente com o discente do PPCIC Wellington Souza Amaral e pesquisador externo tiveram projeto sob título “Classificação automatizada de produtos da nota fiscal eletrônica de compras públicas” aprovado no Programa de pesquisa da Escola de Contas e Gestão do Tribunal de Contas do Estado do Rio de Janeiro (ECG/TCE-RJ) para Edital nº 01/2019. O programa de pesquisa da ECG/TCE-RJ tem como principal finalidade a promoção de estudos e pesquisas na área da administração pública.  Os projetos selecionados visam gerar contribuições para o aprimoramento da gestão pública, bem como dos procedimentos de trabalho do TCE-RJ.

O projeto aprovado objetiva desenvolver um modelo computacional para classificar bens e produtos adquiridos em compras públicas.

Tal solução consiste no desenvolvimento de um modelo computacional  que, a partir de bases de dados disponíveis, como os das notas fiscais eletrônicas, seja capaz de reunir em uma mesma categoria ou grupo, ocorrências de aquisições de bens, produtos e serviços de mesma natureza a ponto de viabilizar procedimentos analíticos confiáveis que resultem, por exemplo:

  • Na formação de um banco de preços confiável que possa ser utilizado como referência em processos de aquisição e de análise de economicidade;
  • Na elaboração de perfis de aquisição (tanto do ponto de vista quantitativo quanto qualitativo) de jurisdicionados que permitirão aos órgãos de controle monitorar e identificar eventuais desvios em relação a padrões de aquisição históricos ou de órgãos similares;
  • Na melhoria dos procedimentos de identificação de indícios de fracionamento de despesas; 
  • Na eventual publicização dos resultados produzidos pelo modelo computacional visando ao aprimoramento e ao estímulo do controle social em função do enriquecimento e da melhoria de qualidade dos dados abertos governamentais relacionados aos gastos públicos;

Com o uso da Mineração de dados pretende-se desenvolver uma metodologia para agrupar e classificar os bens e produtos adquiridos por órgãos da administração pública a fim de aumentar a capacidade analítica dos órgãos de Controle.

Aula inaugural do Programa de Pós-graduação em Ciência da Computação

O Programa de Pós-graduação em Ciência da Computação (PPCIC) do Cefet/RJ realiza a aula inaugural intitulada “Tratamento de dados: uma perspectiva evolutiva e multidisciplinar”, no dia 12 de agosto de 2019, às 10h, no Auditório 5 do campus Maracanã. A palestra será ministrada pela professora convidada Esther Pacitti, do curso de Ciência da Computação da Universidade de Montpellier, na França.

A aula inaugural irá abordar o contexto do crescimento da quantidade e da variedade de dados (imagens, áudio, pontos, matrizes, texto etc.), produzidos em diversas áreas (redes sociais, agronomia, botânica, medicina e outros), que fez aumentar também os desafios tecnológicos e de pesquisa no tratamento desse grande volume de dados, denominado pelo termo Big Data.

Na palestra, a professora Esther Pacitti irá apresentar uma visão da evolução dos métodos de tratamento de dados a partir do modelo relacional, de banco de dados distribuídos, de Big Data até a ciência de dados. Irá expor também algumas aplicações específicas da Agronomia, da Botânica e da Sismologia, e compartilhar experiências de pesquisa na França e no Brasil.

Sobre a palestrante

Esther Pacitti é professora de Ciência da Computação na Universidade de Montpellier, na França, e líder associada da equipe Zenith no Inria e no CNRS, desenvolvendo pesquisas em gerenciamento de dados científicos, incluindo Big Data, sistemas distribuídos e paralelos, sistemas de recomendação e recuperação de informações. Publicou mais de 100 artigos técnicos e é coautora dos livros P2P Techniques for Decentralized Applications e Data-Intensive Workflow Management For Clouds and Data-Intensive and Scalable Computing Environments, publicados pela Morgan & Claypool em 2012 e 2019, respectivamente. Ela é membro do comitê de programa de grandes conferências internacionais, como SIGMOD, VLDB, ICDE, CIKM, ICDCS e EDBT. Esther também é responsável pelas relações internacionais do Departamento de Informática e Gestão da Polytech Montpellier.

 

Maiores informações:

Docente do programa organiza o XIII Brazilian e-Science Workshop

O XIII Brazilian e-Science Workshop (BreSci) tem como objetivo colaborar com os esforços de e-Ciência propondo um fórum amplo de discussão sobre os temas envolvidos no desenvolvimento de infraestrutura de software em apoio às ciências como uma nova plataforma de pesquisa e experimentação científica.

O BreSci 2019, em sua décima terceira edição, sendo a décima edição no Congresso da Sociedade Brasileira de Computação (CSBC) acontecerá dos dias 17 e 18 de julho e será coordenado pelos professores Eduardo Ogasawara  do PPCIC e Daniel de Oliveira (UFF).

Site do evento:

http://csbc2019.sbc.org.br/eventos/13bresci/

XXV Brazilian Symposium on Multimedia and Web (WebMedia 2019)

Promovido anualmente pela Sociedade Brasileira de Computação (SBC), o Simpósio Brasileiro de Sistemas Multimídia e Web (WebMedia) é o principal evento do tema no Brasil e uma excelente oportunidade de intercâmbio científico e técnico entre alunos, pesquisadores e profissionais das áreas de Multimídia, Hipermídia e Web. O WebMedia 2019 será realizado de 29 de outubro a 01 de novembro no CEFET/RJ, campus Maracanã, e os seguintes docentes do PPCIC estarão na organização:

  • Joel Santos, como Coordenador Geral do evento;
  • Kele Belloze, como co-Coordenadora do Workshop de Trabalhos de Iniciação Científica; e,
  • Diego Brandão como membro do Comitê Local.

Site do evento:

https://webmedia.org.br/2019/

Defesa de dissertação (12/07/2019): Gabriel Nascimento dos Santos

Discente: Gabriel Nascimento dos Santos

Título: Tratamento de palavras fora do vocabulário em tarefas de análise de sentimentos com léxicos

Orientador: Gustavo Paiva Guedes e Silva (orientador)

Banca: Gustavo Paiva Guedes e Silva (presidente), Eduardo Bezerra da Silva (CEFET/RJ)  Fellipe Ribeiro Duarte (UFRRJ/RJ), Ronaldo Ribeiro Goldschmidt (IME-RJ)

Dia/Hora: 12 de julho de /2019 / 13h

Sala: Auditório 5

Resumo:

O número de usuários da internet que utilizam número de redes sociais, microblogs e sites de avaliação vem aumentando significantemente nos últimos anos. Com isso, usuários tendem a expor suas opiniões e transmitir o que sentem sobre determinado serviço, produto, e os mais diversos assuntos. Isto tem despertado o interesse de pesquisadores de processamento de linguagem natural, especialmente os de Análise de Sentimentos, que se interessam em explorar técnicas de extrair e entender as opiniões fornecidas pelos usuários que utilizam serviços orientados a opiniões. A Análise de Sentimentos possui três abordagens: a abordagem baseada em aprendizado de máquina, a abordagem baseada em léxicos e a abordagem híbrida. A abordagem baseada em léxicos e a abordagem híbrida sofrem com o problema de palavras fora do vocabulário ao lidar com a natureza dos textos de redes sociais. Lidar com textos provenientes de redes sociais é um grande desafio, pois eles variam de textos bem escritos a sentenças completamente sem sentido. Isso ocorre por diversos motivos, como a limitação do número de caracteres (como no Twitter) e até mesmo por erros ortográficos intencionais. Este trabalho propõe um algoritmo que utiliza word embeddings para tratar palavras fora do vocabulário em tarefas de Análise de Sentimentos com abordagens baseadas em léxico ou abordagens híbridas. A estratégia do algoritmo proposto é baseada na hipótese que palavras que tenham contextos parecidos, possuem significados semelhantes. O algoritmo consiste em eleger as palavras mais similares semanticamente e utilizar as categorias da mais próxima que esteja contida no léxico utilizado. Os experimentos foram conduzidos em três conjuntos de dados em Português do Brasil. Foram utilizados três classificadores e foram observadas melhorias de até 3,3% no F1 score após o uso do algoritmo proposto.

Dissertação