Categoria:Defesas

Defesa de dissertação (14/08/2020): Thiago da Silva Pereira

Discente: Thiago da Silva Pereira

Título: Imputação de dados Hot-Deck: uma comparação entre comitês de regressão

Orientadores:  Jorge de Abreu Soares (orientador), Eduardo Bezerra da Silva (CEFET/RJ) (coorientador).

Banca: Jorge de Abreu Soares (presidente), Eduardo Bezerra da Silva (CEFET/RJ), Diego Nunes Brandão (CEFET/RJ), Ronaldo Ribeiro Goldschmidt (IME)

Dia/hora: 14 de agosto de 2020, às 15h.

Sala remota: meet.google.com/mtr-vmkq-wrw

Resumo:

O pré-processamento de dados enfrenta uma questão importante relacionada ao tratamento de dados ausentes. Uma solução possível para resolver esse problema é a imputação hot-deck. Essa técnica possui duas etapas: agrupar registros semelhantes e executar a imputação propriamente dita. Selecionar o melhor algoritmo para imputação é um desafio, diversos algoritmos de aprendizado de máquina são estudados para isso, porém poucos estudos comparam métodos comitês para a etapa de imputação. Este estudo propõe uma solução baseada na imputação hot-deck comparando quatro comitês regressores: Bagging, Adaboost, Gradientboost e Stacked Generalization. Para verificar
sua eficácia, usamos três conjuntos de dados, variando as taxas de ausências de 10% a 30%. Os resultados indicam que o Gradientboost apresenta melhor precisão em um tempo de processamento razoável.

Dissertação

Defesa de dissertação (12/08/2020): Aíquis Rodrigues Gomes

Discente: Aíquis Rodrigues Gomes

Título: Rumo à Publicação de Dados Abertos Governamentais como Dados Abertos Ligados utilizando uma Abordagem baseada em Ontologias

Orientadora: Kele Teixeira Belloze

Banca: Kele Teixeira Belloze (presidente), Laura Silva de Assis (CEFET/RJ) e Maria Claudia Reis Cavalcanti (IME)

Dia/hora: 12 de agosto de 2020, às 14h.

Sala remota: meet.google.com/vmx-bzig-jbt

Resumo:

Governos sao grandes produtores e publicadores de dados e têm buscado utilizá-los como forma de aumentar a transparencia e gerar mais valor para a sociedade. No entanto, o nível de maturidade na publicação de dados governamentais ainda é baixo, o que resulta na publicação utilizando formatos que dificultam a conexão com outros conjuntos de dados e a leitura por parte de maquinas, além de publicações que não
são realmente em formatos abertos. Dados Abertos Ligados constituem um conjunto de tecnologias e padrões da web semântica que permitem a ligação entre diferentes conjuntos de dados abertos publicados na web. Por intermédio dos Dados Abertos Ligados, governos podem atingir alto grau de maturidade na publicação de dados utilizando um formato realmente aberto, que permite a leitura por máquinas e que pode potencializar o valor gerado para a sociedade com iniciativas de dados. No entanto, existem algumas barreiras para a publicação dos dados utilizando essas tecnologias e padrões. Uma dessas barreiras refere-se a falta de um guia para sua implementação que possa direcionar, de maneira estruturada, os passos a serem seguidos para a publicação de um conjunto de dados como Dados Abertos Ligados. Nesse trabalho é apresentada uma metodologia baseada no uso de ontologia para que conjuntos de dados publicados em formatos tradicionais possam ser publicados como
Dados Abertos Ligados. A metodologia é composta por quatro etapas: (i) identificação, análise e integração dos dados; (ii) desenvolvimento da ontologia; (iii) publicação dos dados como Dados Abertos Ligados; e (iv) publicação de endpoint SPARQL. Dois experimentos utilizando conjuntos de dados governamentais reais dos domínios eleitoral e da saúde foram realizados seguindo a metodologia proposta. Como resultados houve a produção de duas ontologias, sobre as eleições brasileiras e sobre as Unidades Básicas de Saúde em funcionamento no Brasil, e a disponibilização dos dois conjuntos de dados referentes a essas ontologias em arquivos RDF com alguns dos recursos ligados a outros conjuntos de dados. Com os experimentos foi possível comprovar que por meio de um processo estruturado e possível evoluir na publicação de dados abertos e que os passos propostos podem ser aplicados independente do domínio dos dados.

Dissertação

Defesa de dissertação (22/07/2020): Alan Rodrigues Fontoura

Discente: Alan Rodrigues Fontoura

Título: A Deep Reinforcement Learning Approach to Asset-Liability Management

Orientadores: Eduardo Bezerra da Silva (orientador) e Diego Barreto Haddad (CEFET/RJ) (co-orientador).

Banca: Eduardo Bezerra da Silva (presidente), Diego Barreto Haddad (CEFET/RJ), Laura Silva de Assis (CEFET/RJ) e Aline Marins Paes Carvalho (UFF)

Dia/hora: 22 de julho de 2020, às 14h.

Sala remota: meet.google.com/jox-chim-syy

Resumo:

Asset-Liability Management (ALM) is a technique to optimize investment portfolios, considering a future flow of liabilities. Its stochastic nature and multi-period decision structure favors its modeling as a Markov Decision Process (MDP). Reinforcement Learning is a state-of-the-art group of algorithms for MDP solving, and with its recent performance boost provided by deep neural networks, problems with long time horizons can be handled in just a few hours. In this work, an ALM problem is addressed with an algorithm known as Deep Deterministic Policy Gradient. Opposed to most of the other literature approaches, this model does not use scenario discretization, which is a significant contribution to ALM study.
Experimental results show that the Reinforcement Learning framework is well fitted to solve this kind of problem, and has the additional benefit of using continuous state spaces.

Dissertação

Defesa de dissertação (20/07/2020): Rafaela de Castro do Nascimento

Discente: Rafaela de Castro do Nascimento

Título: STConvS2S: rede convolucional espaço-temporal para tarefa de sequência a sequência aplicada à previsão do tempo

Orientador: Eduardo Bezerra (orientador), Fábio Porto (co-orientador)

Banca: Eduardo Bezerra (presidente), Fábio Porto (LNCC), Eduardo Ogasawara (CEFET/RJ),  José Antônio Fernandes de Macêdo (UFC), Yania Molina Souto (LNCC)

Dia/Hora: 20 de julho de 2020/ 14h

Sala Remota: https://meet.google.com/znj-ppnh-yyg

Resumo:

Aplicar modelos de aprendizagem de máquina em dados meteorológicos proporcionam muitas oportunidades na área da Geociência, como prever a condição do tempo de forma mais precisa. Recentemente, a modelagem dos dados meteorológicos com redes neurais profundas tem se tornado uma área de investigação relevante. Alguns trabalhos aplicam redes neurais recorrentes (RNN) ou uma abordagem híbrida usando RNN e redes neurais convolucionais (CNN). Neste trabalho, propusemos STConvS2S (rede convolucional espaço-temporal para tarefa de sequência a sequência), uma arquitetura de aprendizagem profunda construída para aprender as dependências espaciais e temporais dos dados usando somente camadas convolucionais. A arquitetura proposta resolve duas limitações das redes convolucionais ao prever sequências usando dados históricos, sendo: (1) elas violam a ordem temporal durante o processo de aprendizagem, e (2) precisam que o tamanho das sequências de entrada e saída sejam iguais. Experimentos computacionais usando dados de temperatura do ar e de chuva da América do Sul mostram que nossa arquitetura captura o contexto espaço-temporal e que ela é capaz de superar ou ter resultados comparáveis em relação às arquiteturas consideradas estado da arte na tarefa de previsão. Em particular, uma das variações da nossa arquitetura proposta melhora em 23% a previsão das sequências futuras, sendo quase cinco vezes mais rápida no treinamento do que os modelos baseados em RNN comparados nos experimentos.

Dissertação

Defesa de dissertação (05/05/2020): Gustavo Alexandre Sousa Santos

Discente: Gustavo Alexandre Sousa Santos

Título: EvolveDTree: Um Sistema de Mineração de Dados Educacionais Baseado em Árvore de Decisão e Algoritmo Genético para Classificar Evasão no Ensino Superior

Orientadores: Diego Nunes Brandão (orientador), Luis Domingues Tomé Jardim Tarrataca (CEFET/RJ) (co-orientador)

Banca: Diego Nunes Brandão (presidente), Luis Domingues Tomé Jardim Tarrataca (CEFET/RJ), Diego Barreto Haddad (CEFET/RJ), Eduardo Bezerra (CEFET/RJ),  Alexandre Plastino de Carvalho (UFF)

Dia/Hora: 5 de maio de 2020 / 14h

Sala remota: https://meet.google.com/rpi-zimz-oeo

Resumo:

A educação é um dos alicerces para o desenvolvimento econômico e social de um país. Garantir que os investimentos em educação sejam feitos de forma eficiente é um grande desafio para toda a sociedade. Neste aspecto, um dos grandes problemas da educação pública de nível superior ocorre quando os estudantes se desassociam da instituição sem completar o curso no qual estavam matriculados, caracterizando o fenômeno de evasão. Assim, os recursos investidos na formação desses estudantes acabam sendo perdidos, representando um desperdício financeiro significativo. Neste contexto, o desenvolvimento de ferramentas que auxiliem no processo de minimização dos casos de evasão torna-se imprescindível. O presente trabalho propõe o desenvolvimento de um sistema que permite avaliar diferentes técnicas de mineração de dados para classificar a tendência de um aluno abandonar ou graduar no curso em que está matriculado. Por meio desse sistema, busca-se a identificação de características que indiquem a evasão antes que ela ocorra, permitindo que alguma ação possa ser tomada de maneira a minimizá-la.
Para este objetivo, foi desenvolvido um Data Warehouse Educacional (EDW) que permite a integração dos dados educacionais de uma instituição de ensino superior. Os resultados obtidos demonstram que o EDW desenvolvido é robusto o suficiente para permitir que diversas análises sejam realizadas pela gestão acadêmica. Os modelos de classificação avaliados foram comparados por meio de diferentes métricas, destacando-se a estratégia baseada em árvores de decisão. Uma técnica de redução de dimensionalidade baseada em algoritmo genético também foi avaliada, permitindo uma diminuição do tempo de processamento da fase de treinamento em todos os modelos de classificação avaliados. Contudo, foi identificado um aumento no tempo total da abordagem proposta, quando avaliadas as fases de pré-processamento e treinamento, simultaneamente.

Dissertação

Defesa de dissertação (31/01/2020): Ivair Nobrega Luques

Discente: Ivair Nobrega Luques

Título: Inteligência Computacional Aplicada à Detecção Intrínseca de Plágio em Documentos Textuais

Orientadores: Eduardo Bezerra (orientador), Pedro Henrique González Silva (co-orientador)

Banca: Eduardo Bezerra (presidente), Pedro Henrique González Silva (CEFET/RJ), Jorge de Abreu Soares (CEFET/RJ),  Igor Machado Coelho (UFF)

Dia/Hora: 31 de janeiro de 2020/ 10h

Sala: Auditório V – Bloco E

Resumo:

O acesso à produção acadêmica na forma de documentos relacionados ao ensino e à pesquisa científica tem sido fomentado por movimentos de divulgação de documentos digitais. No entanto, o uso indevido desses documentos está contribuindo para o crescimento de casos de plágio. Redes neurais artificiais têm obtido resultados surpreendentes na solução de vários problemas de na área de Processamento de Linguagem Natural. Inspirados por isso, neste trabalho, aplicamos uma combinação simples, porém eficaz, de técnicas de Aprendizagem Profunda à tarefa de detecção intrínseca de plágio. Em particular, usamos Skip-Thoughts, um modelo de incorporação para representar cada frase de um documento como um vetor multidimensional. Depois disso, treinamos uma rede neural siamesa usando como conjunto de treinamento uma coleção de pares de frases (cada frase representada como um vetor Skip-Thoughts) extraída de documentos no corpus PAN11. Em seguida, modelamos cada documento como um grafo ponderado e não-dirigido para viabilizar a aplicação do algoritmo de correlação de clusters, que possibilita identificar passagens potencialmente plagiadas. Nossos experimentos computacionais mostram que o modelo neural de rede siamesa resultante é capaz de reconhecer diferenças estilísticas entre frases em um documento. Além disso, a identificação de passagens potencialmente plagiadas por meio da abordagem de correlação de clusters produz resultados comparáveis aos da literatura.

Dissertação

Defesa de dissertação (31/01/2020): Wellington Souza Amaral

Discente: Wellington Souza Amaral

Título: Análise de grafos para apoio em auditoria de licitações públicas

Orientador: Leonardo Lima (orientador), Eduardo Bezerra (co-orientador)

Banca: Leonardo Lima (presidente), Eduardo Bezerra (CEFET/RJ), Eduardo Ogasawara (CEFET/RJ),  Claudia Justel (IME)

Dia/Hora: 31 de janeiro de 2020/ 14h

Sala: a definir

Resumo:

O presente trabalho apresenta proposta de pesquisa para identificação de inconformidades nos processos licitatórios realizadas por órgãos do Estado do Rio de Janeiro. Esse interesse é motivado pela necessidade de se selecionar os gastos públicos com maiores  suspeitas de conter irregularidades, já que é inviável investigar em detalhe todas as despesas e contratos públicos do estado. Métodos correlatos às áreas de mineração de dados, teoria de grafos e a teoria da informação são utilizados. O método proposto consiste em modelar o problema em dois tipos de redes: uma rede bipartida de empresas e órgãos públicos e, outra rede formada somente de empresas. A entropia de cada vértice e algoritmos de identificação de comunidades são utilizados para identificar possíveis conluios de empresas nas licitações públicas. Os experimentos  computacionais foram realizados com mais de 140 redes a partir de um conjunto  de dados reais e em cada rede subconjuntos de licitações com possíveis conluios foram indicados pelos algoritmos desenvolvidos.

Dissertação

Defesa de dissertação (30/01/2020): Francimary Procopio Garcia de Oliveira

Discente: Francimary Procopio Garcia de Oliveira

Título: Integração de Dados na Detecção de Alvos para Fármacos de Schistosoma mansoni.

Orientadora: Kele Teixeira Belloze

Banca: Kele Teixeira Belloze (presidente), Rafaelli de Carvalho Coutinho (CEFET/RJ), Ana Carolina Ramos Guimaraes (FIOCRUZ)

Dia/Hora: 30 de janeiro de 2020/ 11:00h

Sala: a ser definida

Resumo:

A esquistossomose causada pelo organismo Schistosoma mansoni é uma doença negligenciada importante por sua ocorrência no mundo. Contudo, existe um único medicamento recomendado pela Organização Mundial de Saúde para o seu tratamento. Logo, pesquisas por alvos para fármacos alternativos no combate à doença são importantes. Este trabalho tem como objetivo identificar possíveis novos alvos para fármacos de S. mansoni. A metodologia adota uma abordagem baseada na integração de dados biológicos que se encontram dispersos por diversos bancos de dados públicos e na utilização dos conceitos de ortologia e homologia para identificação dos atributos de essencialidade e drogabilidade das proteínas. Também foi abordado o método de aprendizado de maquina para identificação do atributo de essencialidade das proteínas do S. mansoni, a partir das bases de proteínas essenciais e não-essenciais dos organismos modelo.
Considerando as etapas da metodologia que utilizaram abordagem baseada em homologia, para as quais as características de essencialidade e drogabilidade foram pretendidas, os resultados apresentam uma lista de 15 proteínas candidatas a alvos para fármaco do S. mansoni. Em relação ao método de aprendizado de máquina, o classificador Random Forest foi indicado como o de melhor desempenho, apresentando um percentual de 79% de acurácia nas atividades de aprendizado. A partir do classificador, 1.412 proteínas foram indicadas como essenciais na atividade de predição das proteínas do S. mansoni. A análise comparativa entre os dois métodos, baseado em homologia e baseado em aprendizado de máquina, foi realizada e uma lista das seis proteínas melhor ranqueadas foi apresentada.

Dissertação

Defesa de dissertação (17/01/2020): Ribamar Santos Ferreira Matias

Discente: Ribamar Santos Ferreira Matias

Título: Integração de Dados como Apoio a Modelagem de Célula Inteira da Bactéria Pseudomonas aeruginosa CCBH4851

Orientadora: Kele Teixeira Belloze

Banca: Kele Teixeira Belloze (presidente), Eduardo Bezerra da Silva (CEFET/RJ), Fabrício Alves Barbosa da Silva (FIOCRUZ)

Dia/Hora: 17 de janeiro de 2020/ 10:00h

Sala: Auditório V – 5º andar

Resumo:

A análise comparativa de genomas por meio de processos computacionais é uma abordagem de baixo custo e com potencial promissor para apoiar pesquisadores. Tal análise é favorecida ao considerar os diversos dados oriundos de estudos sobre organismos modelo, disponíveis em bancos de dados públicos. Esta abordagem foi utilizada no presente trabalho, para analisar o genoma da cepa Pseudomonas aeruginosa CCBH4851. Esta cepa, identificada no Brasil em 2008, está sendo pesquisada pela FIOCRUZ e parceiros, em função de sua associação a infecções hospitalares, e do seu alto grau de resistência, detectado após testes com diversos antibióticos. Neste sentido, o levantamento de proteínas essenciais, que possam auxiliar no desenvolvimento de novos antibióticos no combate à bactéria, torna-se relevante. Deste modo, o objetivo deste trabalho é construir uma base de dados para ampliar o conhecimento disponível sobre a P. aeruginosa CCBH4851, a partir de dados provenientes de estudos aprofundados com outros organismos. Esta base de dados reúne informações como anotações por ontologia das proteínas da bactéria, dados sobre homologia e ortologia, e indicadores de similaridade semântica funcional, entre suas proteínas e as de organismos de referência no estudo da espécie P. aeruginosa. Como complemento, foi elaborado um processo de aprendizado de máquina, com intuito de inferir quais proteínas da bactéria têm características essenciais, que são o alvo preferencial para ação dos antibióticos. Para reunir este conjunto de informações, foram empregados métodos estritamente computacionais, com o apoio de ferramentas para análise de sequências genômicas, como Blast2GO, InterProScan, GOGO, Blastp e Orthofinder, referenciando conjuntos de proteínas provenientes de bancos de dados genômicos públicos, como Uniprot, OGEE, Interpro e KEGG. O processo de aprendizagem de máquina consistiu na execução de uma rede neural LSTM, cujas predições seriam posteriormente confrontadas com os resultados de anotação, semelhança e similaridade semântica. Embora sejam menos precisos que as análises por curadoria manual, os métodos computacionais evoluem continuamente, e novas tecnologias e ferramentas para bioinformática são frequentemente disponibilizadas. Estes recursos têm potencial promissor para auxiliar os pesquisadores nas tarefas de conhecimento dos genomas e tomada de decisão. Na base de dados criada, estão disponíveis as anotações pela ontologia Gene Ontology, de aproximadamente 60% do total de proteínas, indicadores de similaridade semântica, assim como o conjunto de proteínas ortólogas da cepa P. aeruginosa CCBH4851, obtidos através de processos comparativos com proteomas de referência. Por fim, o projeto sugere um fluxo de atividades que pode ser aplicado como abordagem inicial genérica nos estudos de novos genomas, que pode ser aprimorado e estendido por trabalhos futuros.

Dissertação

Defesa de dissertação (23/12/2019): Carlos Alberto Martins de Sousa Teles

Discente: Carlos Alberto Martins de Sousa Teles

Título: Um Arcabouço de Caixa-Preta para a Detecção de Tráfego Malicioso em Ambientes de TIC

Orientadores: Felipe da Rocha Henriques (orientador), Raphael Carlos Santos Machado (co-orientador)

Banca: Felipe da Rocha Henriques (presidente), Raphael Carlos Santos Machado (UFF), Pedro Henrique González Silva

 (CEFET/RJ),  Michel Pompeu Tcheou (UERJ)

Dia/Hora: 23 de dezembro de 2019/ 15:30h

Sala: Auditório V – 5º andar

Resumo:

A segurança da informação está se tornando gradualmente uma área que desempenha um papel importante em nossas vidas cotidianas, em função do crescimento dos ativos de Tecnologia da informação e de comunicações (TIC) e os ambientes cada vez mais conectados. Como resultado, os problemas de segurança da informação agora devem ser considerados relevantes a nossa sociedade. Cada vez mais temos informações de Governos, empresas e pessoas tendo seus dados vazados em função de falhas de segurança da informação, tanto em Hardware e Software dos ativos de TIC. Para a inspeção dos ativos de TIC existem oo processos de avaliação de segurança, que são procedimentos para verificar o atendimento a requisitos por meio da execução de testes sistemáticos denominados ensaios, os chamados de Programas de Avaliação da Conformidade (PACs). No intuito de identificar as falhas dos ativos de TIC, através da detecção de tráfego malicioso, este trabalho propõe uma estrutura baseada em caixa preta em ambientes de TIC. O método de caixa preta permite monitorar a rede sem acessar o código do software, que pode ser inviável nas empresas,para seus funcionários. Em nossa proposta, unimos a segurança da informação e do uso de recursos de rede para executar uma detecção confiável de tráfego malicioso. Primeiramente, coletamos informações de tráfego de rede, gerando um conjunto de dados a partir de ferramentas comerciais de rede. Nosso esquema de detecção proposto foi validado verificando a correlação entre alertas de segurança de rede e uso de recursos de rede, como taxa de transferência e número de conexões TCP. Os resultados mostram que o esquema proposto pode detectar com segurança o tráfego malicioso em um ambiente real de rede de TIC.

Dissertação

Defesa de dissertação (23/12/2019): Carlos Roberto Gonçalves Viana Filho

Discente: Carlos Roberto Gonçalves Viana Filho

Título: Uma Proposta de Padronização Brasileira para a Avaliação de Risco em Ambientes Computacionais

Orientadores: Felipe da Rocha Henriques (orientador), Raphael Carlos Santos Machado (co-orientador)

Banca: Felipe da Rocha Henriques (presidente), Raphael Carlos Santos Machado (UFF), Diego Nunes Brandão

 (CEFET/RJ),  Michel Pompeu Tcheou (UERJ)

Dia/Hora: 23 de dezembro de 2019/ 13h

Sala: Auditório V – 5º andar

Resumo:

As sociedades modernas encontram-se cada vez mais dependentes de sistemas computacionais, serviços e de toda sua infraestrutura. Portanto, erros, instabilidades e indisponibilidades destes, podem trazer grandes prejuízos materiais e financeiros para empresas, indústrias  e governos em seus diversos níveis. Com o objetivo de garantir a segurança para os seus sistemas computacionais e minimizar os riscos inerentes a sua crescente utilização as organizações têm trabalhado e investido na implantação de programas de avaliação da conformidade para ativos computacionais.

No Brasil, atualmente não existe uma legislação própria (ou padronização) que exija que os sistemas tenham um mínimo de requisitos de segurança e consequentemente que sua avaliação seja realizada e devidamente comprovada. Em muitos casos, padrões internacionais são usados por empresas Brasileiras para avaliação de conformidade. Porém, nem sempre esses padrões estão adequados ao cenário nacional. Nota-se, seja pela falta de padronização e pela sua pouca maturidade em relação os quesitos de segurança, que o país sofre com vários desafios para assegurar que seus ativos computacionais estejam devidamente protegidos contra os mais diversos tipos de ataques existentes. Entretanto embora o estabelecimento de Programas de Avaliação de Conformidade para Tecnologia da Informação e Ativos de Comunicação seja considerado um grande desafio, podemos afirmar que a avaliação de alguns programas através de uma abordagem orientada para o risco tem contribuído concretamente para a solução do problema supracitado. A adoção de tal abordagem pressupõe a definição de um conjunto de requisitos que devem ser atendidos por um  determinado produto e de uma série de ensaios que deverão ser executados sobre o mesmo, de modo a atestar o atendimento àqueles requisitos.

Neste trabalho, propomos uma padronização para o cenário brasileiro para avaliação de riscos em ambientes computacionais. Uma metanálise é considerada para avaliar a proposta e, com base nos resultados obtidos, verificamos que a adaptação de padrões internacionais para o cenário brasileiro é uma boa alternativa para implantação em larga escala, o que pode levar à redução de custo e tempo para empresas.

Dissertação

Defesa de dissertação (16/12/2019): Alexandre Cunha

Discente: Alexandre Cunha

Título: Detecção de Sinais de eventos Adversos de Medicamentos em Textos Informais

Orientador: Gustavo Paiva Guedes e Silva (orientador)

Banca: Gustavo Paiva Guedes e Silva (presidente), Eduardo Ogasawara (CEFET/RJ), Kele Belloze (CEFET/RJ), Fellipe Duarte (UFRRJ)

Dia/Hora: 16 de dezembro de 2019 / 14h

Sala: Auditório 5 (Bloco E, 5o andar)

Resumo:

A vigilância em saúde, conhecida como farmacovigilância, se define como: “a ciência e as atividades relativas à identificação, avaliação, compreensão e prevenção dos efeitos adversos ou qualquer outro problema relacionado com medicamentos” WHO [2002].  Eventos adversos a medicamentos são responsáveis por aproximadamente 25% dos pacientes internados no atendimento primário, sendo considerados graves em 13% dos casos Meyboom et al. [1999]. A farmacovigilância atua no período de pós-aprovação do medicamento, podendo evitar e atenuar certos eventos adversos. O acesso às várias categorias de dados de saúde no período atual, expande a capacidade de análise para pesquisa relacionada a farmacovigilância. Com o advento das técnicas de mineração de texto (MT), processamento de linguagem natural (PLN), aprendizagem de máquina (AM) e extração da informação (EI), houve a possibilidade de extração de conhecimento de textos não estruturados e informais, obtidos de mídias sociais. O objetivo desta dissertação é, ao utilizar a extração da informação, criar um modelo a partir da MT e PLN e detectar sinais de eventos adversos em medicamentos nos textos da mídia social (Twitter) escritos em português do Brasil. A dissertação apresenta extensa revisão bibliográfica sobre os conceitos citados. Guiando o processo, foi desenvolvida uma abordagem baseada na metodologia de MT para identificar possíveis sinais de eventos adversos. Esse processo foi implementado com auxílio do CoreNLP. Para essa dissertação, foi escolhido o idioma português brasileiro, para o qual não existe suporte nativo do CoreNLP, dessa forma,foram implementados o analisador sintático (Pos-Tagger) e o parse de dependência (DEP-PARSER) em português brasileiro, bem como, treinado um modelo de detecção de entidades nomeadas no domínio da farmacovigilância em português Brasileiro, utilizando AM em uma abordagem híbrida. Foi proposto um algoritmo para efetiva detecção de sinal de eventos adversos em medicamentos. Complementa-se a metodologia com a experimentação dos modelos criados e do algoritmo desenvolvido. Os resultados representem um esforço inicial na tentativa de atuar sobre o idioma português brasileiro no campo da farmacovigilância. Os experimentos abriram caminho para fomentar o tema e fornecer um instrumental para caminhar em direção ao estado da arte, especificamente para a língua portuguesa.

Dissertação

 [:en]Discente: Alexandre Cunha

Título: Detecção de Sinais de eventos Adversos de Medicamentos em Textos Informais

Orientador: Gustavo Paiva Guedes e Silva (orientador)

Banca: Gustavo Paiva Guedes e Silva (presidente), Eduardo Ogasawara (CEFET/RJ), Kele Belloze (CEFET/RJ), Fellipe Duarte (UFRRJ)

Dia/Hora: 16 de dezembro de 2019 / 14h

Sala: Auditório 5 (Bloco E, 5o andar)

Resumo:

A vigilância em saúde, conhecida como farmacovigilância, se define como: “a ciência e as atividades relativas à identificação, avaliação, compreensão e prevenção dos efeitos adversos ou qualquer outro problema relacionado com medicamentos” WHO [2002].  Eventos adversos a medicamentos são responsáveis por aproximadamente 25% dos pacientes internados no atendimento primário, sendo considerados graves em 13% dos casos Meyboom et al. [1999]. A farmacovigilância atua no período de pós-aprovação do medicamento, podendo evitar e atenuar certos eventos adversos. O acesso às várias categorias de dados de saúde no período atual, expande a capacidade de análise para pesquisa relacionada a farmacovigilância. Com o advento das técnicas de mineração de texto (MT), processamento de linguagem natural (PLN), aprendizagem de máquina (AM) e extração da informação (EI), houve a possibilidade de extração de conhecimento de textos não estruturados e informais, obtidos de mídias sociais. O objetivo desta dissertação é, ao utilizar a extração da informação, criar um modelo a partir da MT e PLN e detectar sinais de eventos adversos em medicamentos nos textos da mídia social (Twitter) escritos em português do Brasil. A dissertação apresenta extensa revisão bibliográfica sobre os conceitos citados. Guiando o processo, foi desenvolvida uma abordagem baseada na metodologia de MT para identificar possíveis sinais de eventos adversos. Esse processo foi implementado com auxílio do CoreNLP. Para essa dissertação, foi escolhido o idioma português brasileiro, para o qual não existe suporte nativo do CoreNLP, dessa forma,foram implementados o analisador sintático (Pos-Tagger) e o parse de dependência (DEP-PARSER) em português brasileiro, bem como, treinado um modelo de detecção de entidades nomeadas no domínio da farmacovigilância em português Brasileiro, utilizando AM em uma abordagem híbrida. Foi proposto um algoritmo para efetiva detecção de sinal de eventos adversos em medicamentos. Complementa-se a metodologia com a experimentação dos modelos criados e do algoritmo desenvolvido. Os resultados representem um esforço inicial na tentativa de atuar sobre o idioma português brasileiro no campo da farmacovigilância. Os experimentos abriram caminho para fomentar o tema e fornecer um instrumental para caminhar em direção ao estado da arte, especificamente para a língua portuguesa.

Dissertation

 

Defesa de dissertação (13/11/2019): Leonardo da Silva Moreira

Discente: Leonardo da Silva Moreira

Título: Evaluation of Data Preprocessing Methods for Predicting Brazilian Flight Delays

Orientador: Jorge de Abreu Soares (orientador), Eduardo Soares Ogasawara (co-orientador)

Banca: Jorge de Abreu Soares (presidente), Eduardo Soares Ogasawara (CEFET/RJ), Eduardo Bezerra da Silva (CEFET/RJ), Leonardo Gresta Paulino Murta (IC/UFF)

Dia/Hora: 13 de novembro de 2019 /14 horas

Sala: E-522

Resumo:

Em 2016, as receitas do setor de serviços aéreos do Brasil alcançaram um recorde histórico de receita de R$35,59 bilhões, transportando 109,6 milhões de passageiros de acordo com levantamento da Agência Nacional de Aviação Civil (ANAC). Considerando esse cenário, atrasos nos voos causam vários inconvenientes para as companhias aéreas, aeroportos e passageiros como ocorreram entre 2009 e 2015, onde cerca de 22% dos voos domésticos realizados no Brasil sofreram atrasos superiores a 15 minutos. A previsão desses atrasos é fundamental para mitigar sua ocorrência e otimizar o processo de tomada de decisão de um sistema de transporte aéreo. Particularmente, companhias aéreas, aeroportos e usuários podem estar mais interessados em saber quando é provável que ocorram atrasos do que a previsão precisa de quando não ocorrerão. Neste contexto, esta pesquisa apresenta uma avaliação experimental de métodos de pré-processamento de dados para modelos de classificação de aprendizado de máquina para a predição dos atrasos aéreos, de forma a identificar quais métodos e combinações destes métodos podem auxiliar na melhora da predição e dos resultados do classificador sob uma distribuição desequilibrada de classes de atraso. Para isto a metodologia utilizada inclui a integração de dados aéreos e meteorológicos, etapas de pré-processamento [limpeza, transformação, redução] e finalmente a comparação da predição de dados a partir destes diferentes métodos de pré-processamento. Particularmente, esta pesquisa contribui com a análise de um espectro de métodos de pré-processamento de dados quando comparado à revisão bibliográfica, focando especialmente a distribuição das classes de atraso. Incluem-se entre os objetivos deste trabalho a verificação mais detalhada em relação aos atributos do classificador,a normalização e discretização, principalmente no que diz respeito à faixa de parâmetros do filtro.

Dissertação

 [:en]Student: Leonardo da Silva Moreira

Title: Evaluation of Data Preprocessing Methods for Predicting Brazilian Flight Delays

Advisors: Jorge de Abreu Soares (advisor), Eduardo Soares Ogasawara (co-advisor)

Committee: Jorge de Abreu Soares (president), Eduardo Soares Ogasawara (CEFET/RJ), Eduardo Bezerra da Silva (CEFET/RJ), Leonardo Gresta Paulino Murta (IC/UFF)

Day/Time: November 13, 2019 / 14h

Room: E-522

Abstract:

In 2016, revenues from Brazil’s air services sector reached record revenue of $ R$ 35.59$ billion, transporting 109.6 million passengers, according to a survey by the National Civil Aviation Agency (ANAC). Considering this scenario, delays in flights cause several inconveniences to airlines, airports, and passengers as they occurred between 2009 and 2015, where about 22% of domestic flights made in Brazil were delayed for more than 15 minutes. Predicting these delays is critical to mitigate their occurrence and optimize the decision-making process of an air transport system. In particular, airlines, airports, and users may be more interested in knowing when delays are likely to occur than the forecast needs to know when they will not occur. In this context, this research presents an experimental evaluation of data preprocessing methods for machine learning classification models for the prediction of flight delays, in order to identify which methods and combinations of these methods can help improve prediction and results of the classifier under an unbalanced distribution of delay classes. For this, the methodology used includes the integration of aerial and meteorological data, pre-processing steps [cleaning, transformation, reduction] and finally the comparison of data prediction from these different pre-processing methods. In particular, this research contributes to the analysis of a spectrum of data preprocessing methods when compared to the bibliographic review, especially focusing on the distribution of delay classes. Among the objectives of this work are the more detailed verification in relation to the attributes of the classifier, the normalization, and discretization, mainly with respect to the range of parameters of the filter.

Dissertation

 

Defesa de dissertação (12/07/2019): Gabriel Nascimento dos Santos

Discente: Gabriel Nascimento dos Santos

Título: Tratamento de palavras fora do vocabulário em tarefas de análise de sentimentos com léxicos

Orientador: Gustavo Paiva Guedes e Silva (orientador)

Banca: Gustavo Paiva Guedes e Silva (presidente), Eduardo Bezerra da Silva (CEFET/RJ)  Fellipe Ribeiro Duarte (UFRRJ/RJ), Ronaldo Ribeiro Goldschmidt (IME-RJ)

Dia/Hora: 12 de julho de /2019 / 13h

Sala: Auditório 5

Resumo:

O número de usuários da internet que utilizam número de redes sociais, microblogs e sites de avaliação vem aumentando significantemente nos últimos anos. Com isso, usuários tendem a expor suas opiniões e transmitir o que sentem sobre determinado serviço, produto, e os mais diversos assuntos. Isto tem despertado o interesse de pesquisadores de processamento de linguagem natural, especialmente os de Análise de Sentimentos, que se interessam em explorar técnicas de extrair e entender as opiniões fornecidas pelos usuários que utilizam serviços orientados a opiniões. A Análise de Sentimentos possui três abordagens: a abordagem baseada em aprendizado de máquina, a abordagem baseada em léxicos e a abordagem híbrida. A abordagem baseada em léxicos e a abordagem híbrida sofrem com o problema de palavras fora do vocabulário ao lidar com a natureza dos textos de redes sociais. Lidar com textos provenientes de redes sociais é um grande desafio, pois eles variam de textos bem escritos a sentenças completamente sem sentido. Isso ocorre por diversos motivos, como a limitação do número de caracteres (como no Twitter) e até mesmo por erros ortográficos intencionais. Este trabalho propõe um algoritmo que utiliza word embeddings para tratar palavras fora do vocabulário em tarefas de Análise de Sentimentos com abordagens baseadas em léxico ou abordagens híbridas. A estratégia do algoritmo proposto é baseada na hipótese que palavras que tenham contextos parecidos, possuem significados semelhantes. O algoritmo consiste em eleger as palavras mais similares semanticamente e utilizar as categorias da mais próxima que esteja contida no léxico utilizado. Os experimentos foram conduzidos em três conjuntos de dados em Português do Brasil. Foram utilizados três classificadores e foram observadas melhorias de até 3,3% no F1 score após o uso do algoritmo proposto.

Dissertação

 

Defesa de dissertação (08/05/2019): Roberto de Castro Souza Pinto

Discente: Roberto de Castro Souza Pinto

Título: Ferramenta Robótica para Trabalho com Fotografia Avançada – TilBOT

Orientador: João Roberto de Toledo Quadros (orientador)

Banca: João Roberto de Toledo Quadros (presidente), Aline Gesualdi Manhães (CEFET/RJ)  Eduardo Soares Ogasawaa (CEFET/RJ), Joel André Ferreira dos Santos (CEFET/RJ), Paulo Fernando Ferreira Rosa (IME-RJ)

Dia/Hora: 8 de maio / 14h

Sala: Sala E 515

Resumo: Pesquisas científicas em diversas áreas do conhecimento têm feito uso da técnica cinematográfica de vídeos time-lapse para melhor observar diversos fenômenos da natureza. Essa técnica consiste na criação de vídeos por meio da captura de imagens com uma frequência menor do que quando são reproduzidos, criando uma sensação em que o tempo parece passar mais rápido que o normal. Eventos da natureza, tais como, crescimento de plantas, movimentos de marés, rochas e geleiras, que levam até meses para ocorrer, podem ser vistos em poucos segundos. Pântanos, desertos e até locais submersos, são os lugares de difícil acesso e onde normalmente esses fenômenos ocorrem e precisam ser observados. Câmeras configuradas em modo de disparo contínuo e/ou acopladas a equipamentos especiais que controlam o disparo da câmera, são utilizados para esse fim e estão sujeitos aos efeitos das intempéries desses lugares. Além disso, há um alto custo envolvido com esses equipamentos, sua manutenção e operação. Nesse trabalho é apresentado o TilBOT, uma ferramenta robótica equipada que com uma câmera fotográfica embarcada que vem a atender aos requisitos operacionais associados a configuração, aplicação e custo para obtenção de dados não convencionais do tipo fotografias e vídeos time-lapse e, além de possuir características diferenciais das ferramentas hoje utilizadas para obtenção de dados científicos dessa natureza. Dentre essas novas características se cita a capacidade de utilizar-se do tempo ocioso no processo de captura de imagens para esse tipo de mídia e as novas implementações de mobilidade da ferramenta, com seus vários motores confeccionados para multiposicionamento e de operação da câmera. O TilBOT executa as instruções contidas em um projeto fotográfico que o instrui a movimentar a sua câmera, sendo capaz, com isso, de capturar imagens para a geração de múltiplos vídeos time-lapse a partir de uma mesma coordenada, utilizando-se de um só equipamento, diminuindo a complexidade do processo e reduzindo custos operacionais de obtenção dos dados. Desta feita, o TilBOT é uma ferramenta que facilita a construção de projetos científicos e educacionais que fizerem uso desse tipo de dados não-convencional, no caso, as imagens e os vídeos time-lapse. O TilBOT também pode ser utilizado para a captura de imagens de fotografias digitais avançada para uso em sistemas educacionais, de modo que se possa construir projetos fotográficos com panorâmica horizontal, vertical e 360o imersiva e empilhamento de imagens nas áreas de biologia, geografia e astronomia.

Dissertação

 

Defesa de dissertação (28/03/2019): Flavio Matias Damasceno de Carvalho

Discente: Flavio Matias Damasceno de Carvalho

Título: Desenvolvimento do Dicionário LIWC 2015 em Português do Brasil

Orientadores: Gustavo Paiva Guedes e Silva (orientador)

Banca: Gustavo Paiva Guedes e Silva (CEFET/RJ) (presidente), Eduardo Soares Ogasawara (CEFET/RJ), Joel André Ferreira dos Santos (CEFET/RJ), Lilian Vieira Ferrari (UFRJ)

Dia/Hora: 28 de março / 10h

Sala: Auditório V

Resumo

Uma grande variedade e quantidade de textos são escritos e armazenados em formato digital devido ao desenvolvimento e disseminação de dispositivos computacionais. Dessa grande quantidade de dados textuais, informações úteis podem ser obtidas com técnicas e metodologias da área de Mineração de Texto. Uma dessas metodologias consiste em analisar textos com o Linguistic Inquiry and Word Count, um programa que possui várias versões que foram melhoradas ao longo dos anos. Além de utilizar o arquivo de dicionário padrão, o programa pode utilizar dicionários personalizados ou dicionários traduzidos para outros idiomas. Na utilização com o dicionário traduzido para o português, baseado no dicionário em inglês da versão 2007 do LIWC, as avaliações mostram questões relacionadas ao desempenho da detecção de valência negativa, junto com erros ortográficos e palavras com problemas relacionados à categorização, o que impacta negativamente os resultados obtidos. Desenvolvemos este trabalho observando um aumento no uso desse recurso em estudos acadêmicos nos últimos anos, evidenciado pelo crescente número de citações ao artigo de publicação do dicionário com a tradução para o português. Como não temos conhecimento do desenvolvimento de uma versão mais recente em português e reconhecendo a necessidade de métodos para analisar texto na língua portuguesa, iniciamos o desenvolvimento de uma nova versão em português do dicionário para o LIWC. Trabalhamos com o conjunto de palavras disponíveis na versão de 2015 em inglês e produzimos um novo dicionário compatível com a última versão disponível do programa. Para verificar o desempenho em tarefas de classificação, realizamos experimentos para classificar: (i) autores de textos e (ii) conteúdo das publicações nas redes sociais de acordo com a polaridade do sentimento. As medidas utilizadas para avaliar os resultados obtidos pelos algoritmos de classificação empregados apresentaram valores maiores na nova versão em português do dicionário, comparando com o dicionário atual. Esses experimentos sugerem que o ajuste de palavras a categorias que correspondam adequadamente às características linguísticas e psicológicas permite melhores resultados nas tarefas associadas às áreas de Computação Afetiva e Análise de Sentimentos.

Dissertação

 

Defesa de Dissertação (28/02/2019): Ramon Ferreira Silva

Discente: Ramon Ferreira Silva

Título: Refinement of response models to binary questions

Orientadores: Eduardo Bezerra da Silva (orientador), Joel André Ferreira dos Santos (co-orientador)

Banca: Eduardo Bezerra da Silva (Cefet/RJ) (Presidente), Joel André Ferreira dos Santos (CEFET/RJ), Kele Teixeira Belloze (Cefet/RJ), Ronaldo Ribeiro Goldschmidt (Name-RJ)

Dia/Hora: February 28/9h

Sala: Auditorium V

Resumo:

Responses to visual questions (visual Question Answering, RPV) is a task that unites The fields of computer vision and natural language processing (Natural Language Processing, PLN). Taking as inputs an image I and a question in natural language Q about I, a model for RPV should be able to produce a response R (also in natural language) to Q in a coherent way.  A particular type of visual query is That No Which question is binary (i.e., a question whose answer belongs to the set {Yes, not}). Currently, deep neural networks are the technique that corresponds to state of the art for the training of RPV models. Despite its success, the application of neural networks to the RPV task requires a very large amount of data to be able to produce models with adequate accuracy.  The data sets currently used for the training of RPV models are the result of laborious processes of manual labeling (i.e., made by humans).  This context makes it relevant to study approaches to take greater advantage of these datasets during training. This dissertation proposes to investigate approaches to improve the accuracy of the RPV models for binary questions.  In particular, we present reasoned approaches in active learning techniques (active learning) and increased data (data Increase) to take greater advantage of the existing data set during the training phase of an RPV model.

Dissertação

 

Defesa de dissertação (25/02/2019): João Antônio de Ferreira

Discente: João Antônio de Ferreira

Título:  Um framework Algébrico para Workflows de Análise de Dados em Apache Spark

Orientadores: Eduardo Soares Ogasawara (orientador), Rafaelli de Carvalho Coutinho (coorientador)

Banca: Eduardo Soares Ogasawara (CEFET/RJ) (presidente),
Rafaelli de Carvalho Coutinho (CEFET/RJ), Jorge de Abreu Soares (CEFET/RJ), Fabio Andre Machado Porto (LNCC), Leonardo Gresta Paulino Murta (UFF)

Dia/Hora: 25 de fevereiro / 14h

Sala: H522

Resumo:

A atividade típica de um cientista de dados envolve a implementação de diversos processos que caracterizam experimentos de análise de dados, modelados como workflows. Nestas análises há a necessidade de executar diversos códigos em diferentes linguagens de programação (Python, R, C, Java, Kotlin e Scala) em diferentes ambientes de processamento paralelo e distribuído. Dependendo da complexidade do processo e das inúmeras possibilidades para execução distribuída destas soluções, pode ser necessário gastar muita energia em diferentes implementações que podem afastar o cientista de dados do seu objetivo final, que é o de produzir conhecimento a partir dos grandes volumes de dados. Dentro deste contexto, este trabalho visa apoiar na solução de tal dificuldade ao propor a construção do framework WfF, concebido a partir de uma abordagem algébrica que isola a modelagem do processo da dificuldade de executar, de modo otimizado, tais workflows. Também foi criada uma linguagem agnóstica na forma de uma eDSL (Embedded domain-specific language) inspirada nos conceitos da MDA (Model Driven Architecture) para execução de workflow centrado nos dados (dataflow) e um gerador de código Scala para execução no Apache Spark. O uso de UDF (User Defined Functions) escritas em linguagens diversas, regidas por operadores algébricos (funções de segunda ordem da programação funcional) permite processamento otimizado de dados estruturados, semiestruturados e não estruturados ampliando o domínio de aplicações para além do workflow científico, podendo, ser usado em workflows comerciais de análise de dados. As funcionalidades do ecossistema Apache Spark foram avaliadas no processo de otimização da execução de filtros (operador filter) e mapeamentos (operador map) que operam sobre UDF usando a API (Application Program Interface) Catalyst do SparkSQL, e os experimentos apontam a viabilidade desta abordagem.

Dissertação

 

 

Defesa de dissertação (06/02/2019): Rebecca Pontes Salles

Discente: Rebecca Pontes Salles

Título:  Benchmarking Nonstationary Time Series Prediction

Orientadores: Eduardo Soares Ogasawara (orientador), Pedro Henrique González Silva (coorientador)

Banca: Eduardo Soares Ogasawara (CEFET/RJ) (presidente), Pedro Henrique González Silva (CEFET/RJ), Eduardo Bezerra da Silva (CEFET/RJ), Fabio Andre Machado Porto (LNCC), Florent Masseglia (INRIA)

Dia/Hora: 06 de fevereiro / 9h

Sala: Auditório V

Resumo:

Data preprocessing is a crucial step for mining and learning from data, and one of its primary activities is the transformation of data. This activity is very important in the context of time series prediction since most time series models assume the property of stationarity, i.e., statistical properties do not change over time, which in practice is the exception and not the rule in most real datasets. There are several transformation methods designed to treat nonstationarity in time series. However, the choice of a transformation that is appropriate to the adopted data model and to the problem at hand is not a simple task. This paper provides a review and experimental analysis of methods for transformation of nonstationary time series. The focus of this work is to provide a background on the subject and a discussion on their advantages and limitations to the problem of time series prediction. A subset of the reviewed transformation methods is compared through an experimental evaluation using benchmark datasets from time series prediction competitions and other real macroeconomic datasets. Suitable nonstationary time series transformation methods provided improvements of more than 30% in prediction accuracy for half of the evaluated time series and improved the prediction in more than 95% for 10% of the time series. Furthermore, the adoption of a validation phase during model training enables the selection of suitable transformation methods.

Dissertação

Defesa de dissertação (05/02/2019): Rodrigo Tavares de Souza

Discente: Rodrigo Tavares de Souza

Título:  Appraisal-Spark: uma abordagem para imputação em larga escala

Orientadores: Jorge Abreu Soares (orientador)

Banca: Jorge Abreu Soares (CEFET/RJ) (presidente), Eduardo Soares Ogasawara (CEFET/RJ), Ronaldo Ribeiro Goldschmidt (IME)

Dia/Hora: 05 de fevereiro / 10h

Sala: Auditório V

Resumo:

Cresce continuamente o volume de dados armazenados e a demanda por integração entre os mesmos. Esse cenário aumenta a ocorrência de um problema bastante conhecido dos cientistas de dados: as diversas possibilidades de inconsistências. E um tipo de seus tipos comuns, a ausência de dados, pode prejudicar a análise e resultado de qualquer técnica produtora de informação. A imputação é a área que estuda métodos que buscam aproximar o valor imputado do real. A técnica de imputação composta aplica tarefas de aprendizado de máquina neste processo. Ela utiliza o conceito de plano de imputação, uma sequência lógica de estratégias e algoritmos utilizados na produção do valor imputado final. Neste trabalho, expandiremos a utilização desta técnica, complementando sua utilização com o classificador ensemble bagging. Neste método, os dados são divididos em grupos aleatórios e atrelados a classificadores chamados base learners. Para os subsets gerados no bagging serão retornadas as pontuações (percentual de assertividade) de cada plano de imputação. O plano com maior assertividade dentre todos os subsets será indicado como a sugestão de imputação para o conjunto completo. O trabalho é implementado em um sistema desenvolvido para a ferramenta Spark, denominado Appraisal-Spark, que tem como objetivo gerar valores com maior acurácia e desempenho preditivos para ambientes de larga escala. Através dele será possível compor diversos planos de imputação de alto desempenho, avaliando estratégias e comparando resultados.

Dissertação