Categoria:Defesas

Defesa de dissertação (29/01/2021): Leandro Maia Gonçalves

Discente: Leandro Maia Gonçalves

Título: Imputação Hot-Deck: uma revisão sistemática da literatura

Orientador: Jorge de Abreu Soares

Banca: Jorge de Abreu Soares (presidente), Eduardo Soares Ogasawara (CEFET/RJ) e José Maria da Silva Monteiro Filho (UFC)

Dia/hora: 29 de janeiro de 2021, às 10h.

Sala remota: https://meet.google.com/mkz-opya-skv

Resumo: As organizações têm percebido que investir na transformação de dados em informação com o objetivo de auxiliar o processo de tomada de decisões pode trazer vantagens competitivas. À vista disso, no cenário atual em que os dados crescem em volume, velocidade e variedade, nota-se que tal expansão é acompanhada do aumento de dados ausentes, que podem trazer problemas de interpretação para analistas e pesquisadores. A exclusão destes casos não pode necessariamente ser considerada uma solução, independente do volume dos dados, devido aos seus riscos de geração de vieses ou tendências. Logo, a imputação de dados revela-se uma tarefa fundamental no pré-processamento de dados, capaz de melhorar a sua análise. A imputação hot-deck é uma abordagem que se destaca neste contexto devido à sua capacidade de estimar com melhor precisão e preservar as diferenças individuais entre os sujeitos no processo de imputação. Neste estudo, é apresentada uma revisão sistemática sobre técnicas de imputação hot-deck realizada na base Scopus, com o objetivo de avaliar como ocorre a evolução dos estudos sobre este tema ao longo dos anos. Este trabalho também propõe uma taxonomia que busca classificar, ordenar e estabelecer hierarquias para as técnicas de imputação. Como resultado deste trabalho, verificou-se 63% dos artigos investigados não identificaram adequadamente os mecanismos de ausência em seus experimentos, 72% dos algoritmos de agrupamento utilizados na abordagem hot-deck estão contidos na categoria Partitioning Based, sendo 75% desta representada pelos algoritmos Random hot-deck, K-Nearest-Neighbor e K-means. Com relação à reprodutibilidade dos experimentos, 30% dos artigos apresentaram pseudocódigos dos algoritmos utilizados, 42% utilizaram conjuntos de dados públicos, 45% compararam os resultados da imputação com o conjunto de dados original. Destaca-se que apenas 1% dos artigos apresentou código fonte em repositório aberto, deixando uma importante lacuna no que tange à reprodutibilidade de experimentos nesta área.

Dissertação

Defesa de dissertação (30/12/2020): Jefferson Colares de Paula

Discente: Jefferson Colares de Paula

Título: Reidentificação de pessoas em longo prazo utilizando características multimodais

Orientadores: Diego Barreto Haddad (orientador), Douglas Oliveira Cardoso (coorientador)

Banca: Diego Barreto Haddad (presidente), Douglas Oliveira Cardoso (CEFET/RJ), Fernanda Duarte Vilela Reis de Oliveira (UFRJ), Eduardo Bezerra da Silva (CEFET/RJ), Gabriel Matos Araujo (CEFET/RJ)

Dia/hora:  30 de dezembro de 2020, às 14h.

Sala remota: https://teams.microsoft.com/l/meetup-join/19%3ameeting_NGJhNTJlZWUtNWY5OS00OWM2LWE3ZWEtNmFmNWI1MDNmZWYy%40thread.v2/0?context=%7b%22Tid%22%3a%228eeca404-a47d-4555-a2d4-0f3619041c9c%22%2c%22Oid%22%3a%229287392f-fc6f-454c-a314-46c0529f6841%22%7d

Resumo: A reidentificação de pessoas (ReID) consiste em comparar imagens contendo pessoas, obtidas por múltiplas câmeras com campos de visão não sobrepostos e inferir se as pessoas nessas imagens são as mesmas ou não. Trata-se de um problema mais complexo do que aparenta, pois as imagens comparadas costumam apresentar grandes diferenças na iluminação, no ângulo de captura, nas características óticas das lentes utilizadas, alem de oclusão parcial, auto-oclusão, planos de fundos confusos e outros complicadores. A reidentificação de pessoas em longo prazo, que é o tema desse trabalho, e caracterizada pela ocorrência de um intervalo entre as capturas das imagens. Este intervalo não tem duração específica, mas em geral costuma ser superior a um dia, no qual a pessoa observada pode ter trocado de roupas ou sofrido pequenas mudanças na aparência. As mudanças na aparência ocorridas entre as capturas de imagens representam um desafio adicional, pois as cores e texturas das roupas, que são as características mais comumente utilizadas para reidentificação, não podem ser utilizadas como elementos discriminantes. Este trabalho investiga uma solução para o problema da reidentificação de pessoas em longo prazo por meio da utilização de características da face e da forma de caminhar das pessoas como entradas para um modelo de aprendizado de máquina baseado em redes neurais. A hipótese avaliada é que a combinação destas características permitam que o modelo despreze ou minimize o efeito das trocas de roupas e ao mesmo tempo valorize as características motoras. Os resultados obtidos mostram que a combinação das características melhoram o desempenho da reidentificação em curto prazo e também podem ser utilizadas para o reconhecimento de pessoas em longo-prazo.

Dissertação

Defesa de dissertação (04/12/2020): Fernando Pereira Gonçalves de Sá

Discente: Fernando Pereira Gonçalves de Sá

Título: Detecção de Anomalias em Turbinas Eólicas utilizando Modelos baseados em Dados

Orientadores: Diego Nunes Brandão (orientador), Rodrigo Franco Toso (coorientador)

Banca: Diego Nunes Brandão (presidente), Rodrigo Franco Toso (Microsoft AI & Research), Anderson de Rezende Rocha (UNICAMP), Diego Barreto Haddad (CEFET/RJ)

Dia/hora:  04 de dezembro de 2020, às 14h.

Sala remota: https://us02web.zoom.us/j/82318000409?pwd=ajR2R0pMcytyR1VCa1BYdzVuLzFUUT09

Resumo: Nos últimos anos, a energia eólica tornou-se tendência na substituição da matriz energética baseada em recursos não-renováveis. A produção dessa energia limpa é realizada pela turbina eólica, cuja operação reúne diferentes componentes que atuam na conversão da energia cinética do vento em energia elétrica. Contudo, a turbina eólica é uma máquina complexa de custo elevado, constantemente submetida a diferentes pressões que podem lhe causar falhas em algum momento. Neste contexto, o monitoramento contínuo dos diferentes componentes de uma turbina eólica permite a aplicação de técnicas de prognóstico de falhas baseadas na detecção de anomalias no sistema. Detecção, diagnóstico e prognóstico de falhas compreendem um conjunto de técnicas que garantem a confiabilidade, a segurança e a viabilidade econômica de um sistema. A presença de anomalias é o indício de que a saúde do sistema que compõe a turbina eólica está se deteriorando em função do tempo de operação, cuja evolução pode resultar brevemente em uma falha, quando ocorre a paralisação da produção de energia elétrica e são registrados muitas vezes danos irreversíveis no sistema. Diferentes técnicas foram desenvolvidas com o propósito de identificar essas anomalias. Neste trabalho, discutimos duas abordagens com esse propósito. Abordamos a detecção, diagnóstico e prognóstico de falhas baseados na classificação semi-supervisionada em uma configuração na qual o algoritmo de otimização multiobjetivo Algoritmo Genético de Ordenação não-dominante II (NSGA II) realiza a seleção automática de características e parâmetros de processamento. Uma segunda abordagem processou a detecção e diagnósstico de falhas baseadas na classificação de componentes em processo de pré-falha realizada pelos modelos ocultos de Markov. Ambas as abordagens mostraram-se eficientes em seus objetivos, considerando o processamento de um conjunto de dados reais imperfeito e de elevada dimensionalidade, que demandou diferentes métodos de pré-processamento. O Fluxo de Trabalho 1 apresentou resultados 13% superiores em relação ao trabalho de referência. Já o Fluxo de Trabalho 2, obteve F-score de até 0,89 no processamento da classificação multiclasse.

Dissertação

Defesa de dissertação (10/12/2020): Raphael Correia de Souza Fialho

Discente: Raphael Correia de Souza Fialho

Título: Estimando Redshifts Fotométricos com Regularização Sensível aos Erros

Orientadores: Eduardo Bezerra (orientador), Ricardo Ogando (coorientador)

Banca: Eduardo Bezerra (presidente), Ricardo Ogando (ON/MCTIC), Rafaelli Coutinho (CEFET/RJ), Ribamar R. de R. dos Reis (UFRJ), Ronaldo Ribeiro Goldschmidt (IME/RJ)

Dia/hora: 10 de dezembro de 2020, às 14h

Sala remota: https://meet.google.com/pjw-ffxq-xkk

Resumo: Na Astronomia tem se tornado comum o uso de algoritmos de aprendizagem de máquina durante o processo de captura e análise de eventos astronômicos. Devido à quantidade atual de dados capturados pelos telescopios e antenas em levantamentos astronômicos, esses dados costumam ser armazenados, catalogados e transformados para análises e estudos posteriores. Um tipo particular de análise feita sobre esses dados é a deteção do redshift fotométrico, medida que está relacionada ao quão distante um objeto (galáxia ou quasar) se encontra em relação a um determinado ponto de referência. Uma característica relevante dos conjuntos de dados relativos a estudos sobre redshift fotométrico é que cada entrada apresenta não apenas as medições realizadas para um determinado objeto, mas tambem um valor de erro correspondente a cada medição. Nesta dissertação estudamos a construção de modelos de predição para redshift fotométrico por meio de algoritmos de aprendizado de máquina. Damos foco ao uso de redes neurais artificiais. Nosso objetivo é investigar de que forma esses modelos se comportam em cenários em que a informação sobre erros das medições são considerados ou ignorados durante a etapa de aprendizado. Em particular, propomos uma técnica de treinamento que almeja tirar proveito dos valores de erro. Realizamos experimentos computacionais comparativos para avaliar a efetividade da técnica proposta.
Dissertação

Defesa de dissertação (11/12/2020):  Daniel Ferreira de Oliveira

Discente: Daniel Ferreira de Oliveira

Título: Riographx: um portal científico de apoio as pesquisas em teoria espectral de grafos

Orientadores: Leonardo Silva de Lima (orientador) e Eduardo Bezerra da Silva (coorientador)

Banca: Leonardo Silva de Lima (presidente), Eduardo Bezerra da Silva (CEFET/RJ), Rafaelli de Carvalho Coutinho (CEFET/RJ), Virgínia Maria Rodrigues (UFGRS), Claudia Marcela Justel (IME)

Dia/hora: 11 de dezembro de 2020, às 16h

Sala remota: https://teams.microsoft.com/l/team/19%3a3daf2ce8441f43b29ec83255c159ef85%40thread.tacv2/conversations?groupId=336cfc27-4004-429a-8da5-b135499e7cf9&tenantId=c37b37a3-e9e2-42f9-bc67-4b9b738e1df0

Resumo: A Teoria Espectral de Grafos (TEG) é uma parte da matemática discreta que estuda as propriedades de um grafo a partir das informações fornecidas pelos autovalores e autovetores da matriz associada a este grafo. Esta teoria vem atraindo um maior interesse de pesquisadores desde a decada de 80, em virtude da sua aplicação em diversas áreas, como na Química, na Matemática, na Engenharia e na Ciência da Computação. Com o crescimento exponencial do volume de dados a que se tem disponível atualmente, o processamento das informações em ambientes de execução de tarefas em paralelo e distribuído é crucial para uma melhor produtividade e desempenho. Com o objetivo de construir uma ferramenta WEB que dispensa o uso de recursos de processamento por parte do usuário, propomos o RioGraphX. Um portal científico desenvolvido utilizando o Apache Spark, que tem como objetivo obter todos os grafos que otimizam uma função matemática envolvendo invariantes de um grafo com possíveis restrições. Um workflow com sete etapas foi desenvolvido de modo a obter o máximo de tarefas possíveis executando no ambiente para computaçãoo paralela e distribuída do Apache Spark. Como o Spark fornece API para Scala, Java e Python, neste estudo foram desenvolvidos dois codigos-fontes: um na linguagem Java e outro em Python devido à abundância de bibliotecas de apoio. Em seguida, foram realizados dois testes: um de validação e outro de desempenho. A partir dos testes, cálculos de speedup e Eficiencia compondo um comparativo de execução de tarefas em ambiente de processamento paralelo e distribuído com ambiente monoprocessado evidenciaram a superioridade do código desenvolvido em Java e a avaliação destas métricas de desempenho demonstram a importância da alocação dinâmica de recursos do Spark levando em consideração o tamanho da base de dados. Os tempos de execução do Portal se mostraram satisfatórios tendo em vista o volume de dados processados.
Dissertação

Defesa de dissertação (17/12/2020):  Luciana Escobar Gonçalves Vignoli

Discente: Luciana Escobar Gonçalves Vignoli

Título: Análise Comparativa de Métodos para Detecção de Eventos em Séries Temporais

Orientadores: Laura silva de Assis (orientadora) e Eduardo Soares Ogasawara (co-orientador)

Banca:  Laura Silva de Assis (presidente), Eduardo Soares Ogasawara (CEFET/RJ), Rafaelli de Carvalho Coutinho (CEFET/RJ), Fábio André Machado Porto (LNCC)

Dia/hora: 17 de dezembro de 2020, às 14h

Sala remota: https://meet.google.com/vtr-zogo-cny

Resumo: Grandes volumes de dados são coletados e armazenados diariamente, necessitando de um tratamento adequado para retornar informações valiosas durante uma análise. Esses dados, quando obedecem a uma ordem cronológica de tempo, consistem em séries temporais. Detectar eventos nessas séries é uma tarefa importante em diversas áreas de conhecimento, não se restringindo apenas à Tecnologia da Informação. Eventos podem representar uma anormalidade, uma mudança de comportamento ou um padrão que se repete na série. Diversos métodos presentes na literatura buscam identificar um único tipo de evento, entretanto, uma quantidade menor aborda essa detecção de uma maneira mais generalizada. Esta dissertação propõe uma análise comparativa de diferentes métodos para detecção de eventos em séries temporais, envolvendo identificação de anomalias e pontos de mudança. Tal comparação é realizada através de métodos estatísticos baseados na média móvel, processo de decomposição e técnicas baseadas em vizinhança. Foram realizados experimentos com dados sintéticos e reais envolvendo datasets de diferentes áreas de conhecimento como monitoramento da qualidade da água, tráfego de dados do Yahoo e processos de exploração de petróleo. Os resultados obtidos foram promissores e mostraram que cada conjunto de dado tem sua particularidade, e é muito importante analisar qual método se adéqua melhor a um conjunto específico, onde uma boa escolha pode resultar em até 0,99 de precisão na detecção.
Dissertação

Defesa de dissertação (02/12/2020): Jomar Ferreira Monsores

Discente: Jomar Ferreira Monsores

Título: Ambiente Baseado em Ferramaneta Robótica para Auxílio Educacional de Aluno com Dilexia

Orientador: João Roberto de Toledo Quadros

Banca: João Roberto de Toledo Quadros (presidente), Eduardo Soares Ogasawara (CEFET/RJ), Patrícia Grasel da Silva (IFRJ)

Dia/hora:  02 de dezembro de 2020, às 10h30min.

Sala remota: meet.google.com/qdt-pcdb-dng

Resumo: Um ambiente de robótica, voltado para o auxílio de pessoas que possuem dislexia é apresentado, tanto para o auxílio a leitura quanto na alfabetização de pessoas. A proposta do ambiente é ser inclusivo, o que faz com que ele seja utilizado também para pessoas sem dislexia. Esse ambiente é lúdico, voltado para uma visão de jogo, sem ser competitivo, mas colaborativo. Ele é composto de um robô, um tabuleiro (com símbolos) e um aplicativo, com ênfase na perspectiva de aprendizado dos usuários-alvo. A ideia desse ambiente se baseia na concepção de que, o cérebro de uma pessoa com dislexia se adapta melhor a métodos de ensinos voltados para tridimensionalidade, movimento e percepção espacial. Pretende-se que esse recurso possa ser aplicado em ambientes que não possuam estrutura didático-pedagógica completa para atuar como auxílio a pessoas portadoras de dislexia. Por ser um recurso educacional de baixo custo, seu uso se adequará a ambientes com recursos
financeiros limitados, como, por exemplo, escolas públicas ou escolas com muitos estudantes em zona de carência. A efetividade desse recurso na alfabetização e auxílio de leitura de estudantes com dislexia, pode ser vista na aplicação dos testes, nos quais esse ambiente foi utilizado como recurso educacional inclusivo, atuando na alfabetização ou ajuda a leitura tanto de pessoas com, quanto sem dislexia.

Dissertação

Defesa de dissertação (25/11/2020): Augusto Magalhães Pinto de Mendonça

Discente: Augusto Magalhães Pinto de Mendonça

Título: Distritamento Aplicado ao Problema de Faturamento em Redes de Serviço

Orientadores: Laura Silva de Assis (orientadora), Luis Domingues Tomé Jardim Tarrataca (co-orientador)

Banca: Laura Silva de Assis (presidente), Luis Domingues Tomé Jardim Tarrataca (CEFET/RJ), Diego Nunes Brandão (CEFET/RJ), Fábio Luiz Usberti (IC – UNICAMP)

Data/hora: 25/11/2020, às 14h

Sala remota: meet.google.com/tnf-ustt-bdg

Resumo: Esta dissertação tem o objetivo de investigar o Problema de Distritamento Capacitado (PDC). O PDC é um problema de otimização combinatória que consiste em particionar uma determinada região, em uma quantidade de distritos predeterminados, considerando um ou mais critérios de decisão. A definição dos distritos deve respeitar suas capacidades, as quais são definidas conforme as especificidades do problema. Existem diversas aplicações para o PDC, como o distritamento político, cobertura de vendas, entrega de correspondências, coleta de lixo e serviços de emergência, dentre tantas outras. Esta pesquisa tem como foco resolver o PDC aplicado ao problema de definir lotes de trabalhos para leitores de medidores de redes de serviço tais como energia, água, gás, considerando os critérios de compacidade e homogeneidade para definição de tais territórios. Um novo método de solução baseado em Algoritmo Genético (AG) comparando duas estruturas distintas é apresentado, respeitando restrições de contiguidade, um número predefinido de distritos, dentre outras. Um método de otimização de hiperparâmetros é proposto para determinar um conjunto de valores que forneça soluções de qualidade com certa confiabilidade. Para validar a abordagem de solução proposta foram realizados experimentos computacionais utilizando instâncias de grande porte com características distintas. Os resultados alcançados mostram a eficiência da abordagem proposta para o PDC em estudo.

Dissertação

Defesa de dissertação (23/11/2020): Marcello Alberto Soares Serqueira

Discente: Marcello Alberto Soares Serqueira

Título: HBRKGA: A Population-based Hybrid Approach to Hyperparameter Optimization for Neural Networks

Orientadores: Eduardo Bezerra da Silva (orientador), Pedro Henrique González Silva (co-orientador).

Banca: Eduardo Bezerra da Silva (presidente),  Pedro Henrique González Silva (CEFET/RJ), Diego Brandão (CEFET/RJ), Igor Machado Coelho (UFF).

Dia/hora: 23 de Novembro de 2020, às 14h.

Sala remota: https://meet.google.com/xjd-mbbe-jsr

Resumo: Nos últimos anos, grandes quantidades de dados estão sendo geradas e a necessidade de recursos computacionais continua crescendo. Este cenario levou a um ressurgimento do interesse em redes neurais artificiais. Um dos principais desafios no
treinamento de modelos eficazes de redes neurais e encontrar uma boa combinação de hiperparametros a serem usados. De fato, a escolha de uma abordagem adequada para pesquisar o espaço do hiperparâmetro influencia diretamente a precisão do modelo resultante da rede neural. Abordagens comuns para busca de hiperparâmetros são a Busca em Grade, a Busca Aleatória e Busca por Otimização Bayesiana. Existem também métodos baseados em população, como a CMA-ES. Neste projeto, apresentamos o HBRKGA, uma nova abordagem baseada na população para a optimização de hiperparâmetros. O HBRKGA e uma abordagem híbrida que combina o Algoritmo Genético de Chaves Aleatórias Viciadas com uma técnica de Random-Walk para pesquisar o espaço de hiperparâmetros de forma eficiente. Foram realizados vários experimentos computacionais em oito conjuntos de dados diferentes para avaliar a eficácia da abordagem proposta. Os resultados mostraram que o HBRKGA conseguiu encontrar configurações de hiperparâmetros que superaram (em termos de qualidade preditiva) os métodos de base em seis dos oito conjuntos de dados, mostrando tambem tempo de execução razoável.

Dissertação

Defesa de dissertação (22/10/2020): Gustavo Pacheco Epifanio

Discente: Gustavo Pacheco Epifanio

Título: Problema de Alocação de Chaves em Sistemas de Distribuição de Energia Elétrica com Geração Distribuída

Orientadora: Laura Silva de Assis

Banca: Laura Silva de Assis (Presidente), Diego Barreto Haddad (CEFET/RJ), José Frederico Vizcaino González (FEG/UNESP) e Christiano Lyra Filho (FEEC/UNICAMP)

Dia/Hora: 22 de outrubro de 2020, às 14h

Sala remota: meet.google.com/bkx-zbcf-yzi

Resumo: O Problema de alocação de chaves (PAC) em redes de energia elétrica consiste em determinar de forma otimizada os melhores locais, quantidade e tipos de chaves a serem alocados em uma rede de distribuição com o objetivo de minimizar os custos, mantendo um nível estipulado de confiabilidade. A geração distribuída (GD) refere-se a existência de um gerador de eletricidade no usuário final ou próximo a ele, permitindo fazer uso de tal fonte de energia. A expectativa é que tal configuração na rede provoque uma redução de perdas na rede elétrica e também auxilie na atenuação do impacto da falha no sistema. A intenção é que a GD conduza a um impacto positivo na confiabilidade da rede, devido ao seu potencial de fornecer caminhos alternativos de fornecimento de energia, após a ocorrência de uma contingência, por meio da operação do sistema com ilhamento. Este trabalho de pesquisa tem como objetivo investigar o PAC que engloba uma série de tomadas de decisão enfrentadas pelas concessionárias de distribuição, a fim de reduzir custos operacionais e manter níveis predeterminados de confiabilidade em uma rede de distribuição com GD.  A solução se baseia em algoritmos genético e memético. Um método de otimização é proposto para escolher um conjunto adequado de valores para os hiperparâmetros. Experimentos computacionais são conduzidos para avaliar a metodologia em redes reais de grande porte. Os resultados mostram a efetividade da abordagem em solucionar o PAC e os benefícios na confiabilidade que podem ser obtidos com o uso da GD.
Dissertação

Defesa de dissertação (28/09/2020): Ellen Paixão Silva

Discente:  Ellen Paixão Silva

Título: A Influência de Mídias Multissensoriais na Aprendizagem de Crianças com Dislexia

Orientadores: Joel André Ferreira dos Santos (orientador) Silva e Glauco Amorim (coorientador)

Banca: Joel André Ferreira dos Santos (Presidente), Glauco Amorim (CEFET/RJ), Gustavo Guedes (CEFET/RJ), Renata Mousinho (UFRJ) e Maria da Graça Campos Pimentel (USP)

Dia/Hora: 28 de setembro de 2020, às 19h

Sala remota:

MS Team (https://teams.microsoft.com/l/meetup-join/19%3ameeting_NmJkN2EwMDAtNjVjZS00OThiLThlMzktODI0OGI2OTI0OWUx%40thread.v2/0?context=%7b%22Tid%22%3a%228eeca404-a47d-4555-a2d4-0f3619041c9c%22%2c%22Oid%22%3a%2264f8dc5c-d07e-4edc-acf2-16d1e4d1205d%22%7d)

Resumo:

A dislexia é um transtorno específico de aprendizagem que pode afetar as habilidades de leitura e escrita prejudicando, principalmente, o processo de alfabetização. Na leitura, a sobrecarga na memória de trabalho prejudica a compreensão de textos sendo observado sintomas como erros de reconhecimento de palavras e dificuldade de decodificação de palavras. Pesquisas publicadas na literatura indicam que a formação da memória engloba diferentes sentidos humanos e que estímulos provenientes de conteúdos multimídia melhoram o desempenho de escolares com dislexia. No entanto, a maioria das aplicações multimídia estimulam apenas dois dos cinco sentidos humanos: a visão e a audição. Pesquisas recentes buscam adicionar estímulos aos demais sentidos em aplicações multimídia, na forma das chamadas aplicações mulsemídia (multimídia multissensorial). Na forma de um livro multissensorial, este trabalho propõe o uso de conteúdos multissensoriais incorporando sons, variação cores e intensidade da luz do ambiente, vento e cheiro ao conteúdo do texto. Tais conteúdos são sincronizados à leitura com o uso de um rastreador ocular.
O MBook é um aplicativo desenvolvido neste trabalho capaz de armazenar e apresentar livros multissensoriais. Ele utiliza um rastreador ocular para mapear a posição dos olhos no display que exibe o texto e assim identificar instantaneamente qual a palavra está sendo lida. Com essa
informação é possível verificar se aquela palavra ou sequência de palavras possuem conteúdos multissensoriais associados e com isso executar os conteúdos correspondentes. O MBook desacopla o conteúdo textual do livro da lógica da experiência multissensorial. Dessa forma, permite que os autores se concentrem na história e marquem os locais da história em que um conteúdo multissensorial pode ser apresentado, e os produtores de conteúdo explorem as histórias existentes para aumentar a experiência do leitor, incluindo conteúdo multimídia tradicional e efeitos sensoriais.
Neste trabalho, partimos da hipótese de que “o uso de conteúdos multissensoriais sincronizados com a leitura diminui a sobrecarga na memória de trabalho necessária para a leitura, auxiliando assim, um indivíduo com dislexia a compreender e memorizar o conteúdo que esta sendo lido”. Para avaliar essa hipótese foram realizados dois estudos: (i) uma análise comparativa entre dois estudos de caso individuais, sendo um com uma criança com dislexia e um com uma criança sem dislexia com o perfis pareados; e (ii) uma análise de um estudo de caso coletivo com cinco crianças com dislexia. Os resultados obtidos indicam um aumento da motivação intrínseca de leitura, um ganho de velocidade na leitura e um aumento da compreensão de texto quando conteúdos multissensoriais são incluídos na leitura. Os resultados também indicam que o MBook pode ser uma ferramenta terapêutica importante para o tratamento de escolares com dislexia minimizando assim os prejuízos causados por esse transtorno.

Dissertação

Defesa de dissertação (23/09/2020): Adalberto Andrade

Discente:  Adalberto Andrade

Título: Um estudo comparativo para Predição de Consumo de Fertilizantes em cenário de small data 

Orientadores: Pedro Henrique González (orientador) Silva, Eduardo Soares Ogasawara (coorientador)

Banca: Pedro Henrique González Silva (Presidente), Eduardo Soares Ogasawara (CEFET/RJ), Eduardo Bezerra da Silva (CEFET/RJ), Cristina Gomes de Souza (CEFET/RJ), Igor Machado Coelho (UFF)

Dia/Hora: 23 de setembro de 2020, às 10h

Sala remota: meet.google.com/utc-ucgk-nxu

Resumo:

Os fertilizantes têm recebido crescente atenção do agronegócio, indústria, empresários, governos e entidades de pesquisa em todo o mundo. Como insumo crítico para a cadeia produtiva de alimentos e insumos orgânicos para outros setores, é importante prever o consumo de fertilizantes, para que o aumento de sua produção possa ser feito adequadamente planejado, sem comprometer o meio ambiente. Esta previsão apoia a tomada de decisões e o planejamento, particularmente para atividades agrícolas, fortemente dependentes do uso de fertilizantes. Tendo em vista os elementos citados, esta pesquisa tem como foco comparar abordagens analíticas de dados para melhorar as previsões do consumo de fertilizantes sob diferentes horizontes de passos à frente. Para tanto, exploramos maneiras de otimizar a construção de modelo considerando diferentes abordagens (ou seja, combinações de pares entre pré-processamento de dados e métodos de aprendizado de máquina). Avaliamos essas abordagens em um conjunto reduzido de observações, correspondentes aos quatro principais fertilizantes usados nos dez principais países que os consomem. Os resultados obtidos mostraram que o uso das ferramentas analíticas propostas pode ser uma maneira promissora de
obtermos previsões para planejar demandas futuras.

Dissertação

Defesa de dissertação (14/08/2020): Thiago da Silva Pereira

Discente: Thiago da Silva Pereira

Título: Imputação de dados Hot-Deck: uma comparação entre comitês de regressão

Orientadores:  Jorge de Abreu Soares (orientador), Eduardo Bezerra da Silva (CEFET/RJ) (coorientador).

Banca: Jorge de Abreu Soares (presidente), Eduardo Bezerra da Silva (CEFET/RJ), Diego Nunes Brandão (CEFET/RJ), Ronaldo Ribeiro Goldschmidt (IME)

Dia/hora: 14 de agosto de 2020, às 15h.

Sala remota: meet.google.com/mtr-vmkq-wrw

Resumo:

O pré-processamento de dados enfrenta uma questão importante relacionada ao tratamento de dados ausentes. Uma solução possível para resolver esse problema é a imputação hot-deck. Essa técnica possui duas etapas: agrupar registros semelhantes e executar a imputação propriamente dita. Selecionar o melhor algoritmo para imputação é um desafio, diversos algoritmos de aprendizado de máquina são estudados para isso, porém poucos estudos comparam métodos comitês para a etapa de imputação. Este estudo propõe uma solução baseada na imputação hot-deck comparando quatro comitês regressores: Bagging, Adaboost, Gradientboost e Stacked Generalization. Para verificar
sua eficácia, usamos três conjuntos de dados, variando as taxas de ausências de 10% a 30%. Os resultados indicam que o Gradientboost apresenta melhor precisão em um tempo de processamento razoável.

Dissertação

Defesa de dissertação (12/08/2020): Aíquis Rodrigues Gomes

Discente: Aíquis Rodrigues Gomes

Título: Rumo à Publicação de Dados Abertos Governamentais como Dados Abertos Ligados utilizando uma Abordagem baseada em Ontologias

Orientadora: Kele Teixeira Belloze

Banca: Kele Teixeira Belloze (presidente), Laura Silva de Assis (CEFET/RJ) e Maria Claudia Reis Cavalcanti (IME)

Dia/hora: 12 de agosto de 2020, às 14h.

Sala remota: meet.google.com/vmx-bzig-jbt

Resumo:

Governos sao grandes produtores e publicadores de dados e têm buscado utilizá-los como forma de aumentar a transparencia e gerar mais valor para a sociedade. No entanto, o nível de maturidade na publicação de dados governamentais ainda é baixo, o que resulta na publicação utilizando formatos que dificultam a conexão com outros conjuntos de dados e a leitura por parte de maquinas, além de publicações que não
são realmente em formatos abertos. Dados Abertos Ligados constituem um conjunto de tecnologias e padrões da web semântica que permitem a ligação entre diferentes conjuntos de dados abertos publicados na web. Por intermédio dos Dados Abertos Ligados, governos podem atingir alto grau de maturidade na publicação de dados utilizando um formato realmente aberto, que permite a leitura por máquinas e que pode potencializar o valor gerado para a sociedade com iniciativas de dados. No entanto, existem algumas barreiras para a publicação dos dados utilizando essas tecnologias e padrões. Uma dessas barreiras refere-se a falta de um guia para sua implementação que possa direcionar, de maneira estruturada, os passos a serem seguidos para a publicação de um conjunto de dados como Dados Abertos Ligados. Nesse trabalho é apresentada uma metodologia baseada no uso de ontologia para que conjuntos de dados publicados em formatos tradicionais possam ser publicados como
Dados Abertos Ligados. A metodologia é composta por quatro etapas: (i) identificação, análise e integração dos dados; (ii) desenvolvimento da ontologia; (iii) publicação dos dados como Dados Abertos Ligados; e (iv) publicação de endpoint SPARQL. Dois experimentos utilizando conjuntos de dados governamentais reais dos domínios eleitoral e da saúde foram realizados seguindo a metodologia proposta. Como resultados houve a produção de duas ontologias, sobre as eleições brasileiras e sobre as Unidades Básicas de Saúde em funcionamento no Brasil, e a disponibilização dos dois conjuntos de dados referentes a essas ontologias em arquivos RDF com alguns dos recursos ligados a outros conjuntos de dados. Com os experimentos foi possível comprovar que por meio de um processo estruturado e possível evoluir na publicação de dados abertos e que os passos propostos podem ser aplicados independente do domínio dos dados.

Dissertação

Defesa de dissertação (22/07/2020): Alan Rodrigues Fontoura

Discente: Alan Rodrigues Fontoura

Título: A Deep Reinforcement Learning Approach to Asset-Liability Management

Orientadores: Eduardo Bezerra da Silva (orientador) e Diego Barreto Haddad (CEFET/RJ) (co-orientador).

Banca: Eduardo Bezerra da Silva (presidente), Diego Barreto Haddad (CEFET/RJ), Laura Silva de Assis (CEFET/RJ) e Aline Marins Paes Carvalho (UFF)

Dia/hora: 22 de julho de 2020, às 14h.

Sala remota: meet.google.com/jox-chim-syy

Resumo:

Asset-Liability Management (ALM) is a technique to optimize investment portfolios, considering a future flow of liabilities. Its stochastic nature and multi-period decision structure favors its modeling as a Markov Decision Process (MDP). Reinforcement Learning is a state-of-the-art group of algorithms for MDP solving, and with its recent performance boost provided by deep neural networks, problems with long time horizons can be handled in just a few hours. In this work, an ALM problem is addressed with an algorithm known as Deep Deterministic Policy Gradient. Opposed to most of the other literature approaches, this model does not use scenario discretization, which is a significant contribution to ALM study.
Experimental results show that the Reinforcement Learning framework is well fitted to solve this kind of problem, and has the additional benefit of using continuous state spaces.

Dissertação

Defesa de dissertação (20/07/2020): Rafaela de Castro do Nascimento

Discente: Rafaela de Castro do Nascimento

Título: STConvS2S: rede convolucional espaço-temporal para tarefa de sequência a sequência aplicada à previsão do tempo

Orientador: Eduardo Bezerra (orientador), Fábio Porto (co-orientador)

Banca: Eduardo Bezerra (presidente), Fábio Porto (LNCC), Eduardo Ogasawara (CEFET/RJ),  José Antônio Fernandes de Macêdo (UFC), Yania Molina Souto (LNCC)

Dia/Hora: 20 de julho de 2020/ 14h

Sala Remota: https://meet.google.com/znj-ppnh-yyg

Resumo:

Aplicar modelos de aprendizagem de máquina em dados meteorológicos proporcionam muitas oportunidades na área da Geociência, como prever a condição do tempo de forma mais precisa. Recentemente, a modelagem dos dados meteorológicos com redes neurais profundas tem se tornado uma área de investigação relevante. Alguns trabalhos aplicam redes neurais recorrentes (RNN) ou uma abordagem híbrida usando RNN e redes neurais convolucionais (CNN). Neste trabalho, propusemos STConvS2S (rede convolucional espaço-temporal para tarefa de sequência a sequência), uma arquitetura de aprendizagem profunda construída para aprender as dependências espaciais e temporais dos dados usando somente camadas convolucionais. A arquitetura proposta resolve duas limitações das redes convolucionais ao prever sequências usando dados históricos, sendo: (1) elas violam a ordem temporal durante o processo de aprendizagem, e (2) precisam que o tamanho das sequências de entrada e saída sejam iguais. Experimentos computacionais usando dados de temperatura do ar e de chuva da América do Sul mostram que nossa arquitetura captura o contexto espaço-temporal e que ela é capaz de superar ou ter resultados comparáveis em relação às arquiteturas consideradas estado da arte na tarefa de previsão. Em particular, uma das variações da nossa arquitetura proposta melhora em 23% a previsão das sequências futuras, sendo quase cinco vezes mais rápida no treinamento do que os modelos baseados em RNN comparados nos experimentos.

Dissertação

Defesa de dissertação (05/05/2020): Gustavo Alexandre Sousa Santos

Discente: Gustavo Alexandre Sousa Santos

Título: EvolveDTree: Um Sistema de Mineração de Dados Educacionais Baseado em Árvore de Decisão e Algoritmo Genético para Classificar Evasão no Ensino Superior

Orientadores: Diego Nunes Brandão (orientador), Luis Domingues Tomé Jardim Tarrataca (CEFET/RJ) (co-orientador)

Banca: Diego Nunes Brandão (presidente), Luis Domingues Tomé Jardim Tarrataca (CEFET/RJ), Diego Barreto Haddad (CEFET/RJ), Eduardo Bezerra (CEFET/RJ),  Alexandre Plastino de Carvalho (UFF)

Dia/Hora: 5 de maio de 2020 / 14h

Sala remota: https://meet.google.com/rpi-zimz-oeo

Resumo:

A educação é um dos alicerces para o desenvolvimento econômico e social de um país. Garantir que os investimentos em educação sejam feitos de forma eficiente é um grande desafio para toda a sociedade. Neste aspecto, um dos grandes problemas da educação pública de nível superior ocorre quando os estudantes se desassociam da instituição sem completar o curso no qual estavam matriculados, caracterizando o fenômeno de evasão. Assim, os recursos investidos na formação desses estudantes acabam sendo perdidos, representando um desperdício financeiro significativo. Neste contexto, o desenvolvimento de ferramentas que auxiliem no processo de minimização dos casos de evasão torna-se imprescindível. O presente trabalho propõe o desenvolvimento de um sistema que permite avaliar diferentes técnicas de mineração de dados para classificar a tendência de um aluno abandonar ou graduar no curso em que está matriculado. Por meio desse sistema, busca-se a identificação de características que indiquem a evasão antes que ela ocorra, permitindo que alguma ação possa ser tomada de maneira a minimizá-la.
Para este objetivo, foi desenvolvido um Data Warehouse Educacional (EDW) que permite a integração dos dados educacionais de uma instituição de ensino superior. Os resultados obtidos demonstram que o EDW desenvolvido é robusto o suficiente para permitir que diversas análises sejam realizadas pela gestão acadêmica. Os modelos de classificação avaliados foram comparados por meio de diferentes métricas, destacando-se a estratégia baseada em árvores de decisão. Uma técnica de redução de dimensionalidade baseada em algoritmo genético também foi avaliada, permitindo uma diminuição do tempo de processamento da fase de treinamento em todos os modelos de classificação avaliados. Contudo, foi identificado um aumento no tempo total da abordagem proposta, quando avaliadas as fases de pré-processamento e treinamento, simultaneamente.

Dissertação

Defesa de dissertação (31/01/2020): Ivair Nobrega Luques

Discente: Ivair Nobrega Luques

Título: Inteligência Computacional Aplicada à Detecção Intrínseca de Plágio em Documentos Textuais

Orientadores: Eduardo Bezerra (orientador), Pedro Henrique González Silva (co-orientador)

Banca: Eduardo Bezerra (presidente), Pedro Henrique González Silva (CEFET/RJ), Jorge de Abreu Soares (CEFET/RJ),  Igor Machado Coelho (UFF)

Dia/Hora: 31 de janeiro de 2020/ 10h

Sala: Auditório V – Bloco E

Resumo:

O acesso à produção acadêmica na forma de documentos relacionados ao ensino e à pesquisa científica tem sido fomentado por movimentos de divulgação de documentos digitais. No entanto, o uso indevido desses documentos está contribuindo para o crescimento de casos de plágio. Redes neurais artificiais têm obtido resultados surpreendentes na solução de vários problemas de na área de Processamento de Linguagem Natural. Inspirados por isso, neste trabalho, aplicamos uma combinação simples, porém eficaz, de técnicas de Aprendizagem Profunda à tarefa de detecção intrínseca de plágio. Em particular, usamos Skip-Thoughts, um modelo de incorporação para representar cada frase de um documento como um vetor multidimensional. Depois disso, treinamos uma rede neural siamesa usando como conjunto de treinamento uma coleção de pares de frases (cada frase representada como um vetor Skip-Thoughts) extraída de documentos no corpus PAN11. Em seguida, modelamos cada documento como um grafo ponderado e não-dirigido para viabilizar a aplicação do algoritmo de correlação de clusters, que possibilita identificar passagens potencialmente plagiadas. Nossos experimentos computacionais mostram que o modelo neural de rede siamesa resultante é capaz de reconhecer diferenças estilísticas entre frases em um documento. Além disso, a identificação de passagens potencialmente plagiadas por meio da abordagem de correlação de clusters produz resultados comparáveis aos da literatura.

Dissertação

Defesa de dissertação (31/01/2020): Wellington Souza Amaral

Discente: Wellington Souza Amaral

Título: Análise de grafos para apoio em auditoria de licitações públicas

Orientador: Leonardo Lima (orientador), Eduardo Bezerra (co-orientador)

Banca: Leonardo Lima (presidente), Eduardo Bezerra (CEFET/RJ), Eduardo Ogasawara (CEFET/RJ),  Claudia Justel (IME)

Dia/Hora: 31 de janeiro de 2020/ 14h

Sala: a definir

Resumo:

O presente trabalho apresenta proposta de pesquisa para identificação de inconformidades nos processos licitatórios realizadas por órgãos do Estado do Rio de Janeiro. Esse interesse é motivado pela necessidade de se selecionar os gastos públicos com maiores  suspeitas de conter irregularidades, já que é inviável investigar em detalhe todas as despesas e contratos públicos do estado. Métodos correlatos às áreas de mineração de dados, teoria de grafos e a teoria da informação são utilizados. O método proposto consiste em modelar o problema em dois tipos de redes: uma rede bipartida de empresas e órgãos públicos e, outra rede formada somente de empresas. A entropia de cada vértice e algoritmos de identificação de comunidades são utilizados para identificar possíveis conluios de empresas nas licitações públicas. Os experimentos  computacionais foram realizados com mais de 140 redes a partir de um conjunto  de dados reais e em cada rede subconjuntos de licitações com possíveis conluios foram indicados pelos algoritmos desenvolvidos.

Dissertação

Defesa de dissertação (30/01/2020): Francimary Procopio Garcia de Oliveira

Discente: Francimary Procopio Garcia de Oliveira

Título: Integração de Dados na Detecção de Alvos para Fármacos de Schistosoma mansoni.

Orientadora: Kele Teixeira Belloze

Banca: Kele Teixeira Belloze (presidente), Rafaelli de Carvalho Coutinho (CEFET/RJ), Ana Carolina Ramos Guimaraes (FIOCRUZ)

Dia/Hora: 30 de janeiro de 2020/ 11:00h

Sala: a ser definida

Resumo:

A esquistossomose causada pelo organismo Schistosoma mansoni é uma doença negligenciada importante por sua ocorrência no mundo. Contudo, existe um único medicamento recomendado pela Organização Mundial de Saúde para o seu tratamento. Logo, pesquisas por alvos para fármacos alternativos no combate à doença são importantes. Este trabalho tem como objetivo identificar possíveis novos alvos para fármacos de S. mansoni. A metodologia adota uma abordagem baseada na integração de dados biológicos que se encontram dispersos por diversos bancos de dados públicos e na utilização dos conceitos de ortologia e homologia para identificação dos atributos de essencialidade e drogabilidade das proteínas. Também foi abordado o método de aprendizado de maquina para identificação do atributo de essencialidade das proteínas do S. mansoni, a partir das bases de proteínas essenciais e não-essenciais dos organismos modelo.
Considerando as etapas da metodologia que utilizaram abordagem baseada em homologia, para as quais as características de essencialidade e drogabilidade foram pretendidas, os resultados apresentam uma lista de 15 proteínas candidatas a alvos para fármaco do S. mansoni. Em relação ao método de aprendizado de máquina, o classificador Random Forest foi indicado como o de melhor desempenho, apresentando um percentual de 79% de acurácia nas atividades de aprendizado. A partir do classificador, 1.412 proteínas foram indicadas como essenciais na atividade de predição das proteínas do S. mansoni. A análise comparativa entre os dois métodos, baseado em homologia e baseado em aprendizado de máquina, foi realizada e uma lista das seis proteínas melhor ranqueadas foi apresentada.

Dissertação