Categoria:Defesas

Defesa de Dissertação (28/02/2019): Ramon Ferreira Silva

Discente: Ramon Ferreira Silva

Título: Refinement of response models to binary questions

Orientadores: Eduardo Bezerra da Silva (orientador), Joel André Ferreira dos Santos (co-orientador)

Banca: Eduardo Bezerra da Silva (Cefet/RJ) (Presidente), Joel André Ferreira dos Santos (CEFET/RJ), Kele Teixeira Belloze (Cefet/RJ), Ronaldo Ribeiro Goldschmidt (Name-RJ)

Dia/Hora: February 28/9h

Sala: Auditorium V

Resumo:

Responses to visual questions (visual Question Answering, RPV) is a task that unites The fields of computer vision and natural language processing (Natural Language Processing, PLN). Taking as inputs an image I and a question in natural language Q about I, a model for RPV should be able to produce a response R (also in natural language) to Q in a coherent way.  A particular type of visual query is That No Which question is binary (i.e., a question whose answer belongs to the set {Yes, not}). Currently, deep neural networks are the technique that corresponds to state of the art for the training of RPV models. Despite its success, the application of neural networks to the RPV task requires a very large amount of data to be able to produce models with adequate accuracy.  The data sets currently used for the training of RPV models are the result of laborious processes of manual labeling (i.e., made by humans).  This context makes it relevant to study approaches to take greater advantage of these datasets during training. This dissertation proposes to investigate approaches to improve the accuracy of the RPV models for binary questions.  In particular, we present reasoned approaches in active learning techniques (active learning) and increased data (data Increase) to take greater advantage of the existing data set during the training phase of an RPV model.

Dissertação

 

Defesa de dissertação (25/02/2019): João Antônio de Ferreira

Discente: João Antônio de Ferreira

Título:  Um framework Algébrico para Workflows de Análise de Dados em Apache Spark

Orientadores: Eduardo Soares Ogasawara (orientador), Rafaelli de Carvalho Coutinho (coorientador)

Banca: Eduardo Soares Ogasawara (CEFET/RJ) (presidente),
Rafaelli de Carvalho Coutinho (CEFET/RJ), Jorge de Abreu Soares (CEFET/RJ), Fabio Andre Machado Porto (LNCC), Leonardo Gresta Paulino Murta (UFF)

Dia/Hora: 25 de fevereiro / 14h

Sala: H522

Resumo:

A atividade típica de um cientista de dados envolve a implementação de diversos processos que caracterizam experimentos de análise de dados, modelados como workflows. Nestas análises há a necessidade de executar diversos códigos em diferentes linguagens de programação (Python, R, C, Java, Kotlin e Scala) em diferentes ambientes de processamento paralelo e distribuído. Dependendo da complexidade do processo e das inúmeras possibilidades para execução distribuída destas soluções, pode ser necessário gastar muita energia em diferentes implementações que podem afastar o cientista de dados do seu objetivo final, que é o de produzir conhecimento a partir dos grandes volumes de dados. Dentro deste contexto, este trabalho visa apoiar na solução de tal dificuldade ao propor a construção do framework WfF, concebido a partir de uma abordagem algébrica que isola a modelagem do processo da dificuldade de executar, de modo otimizado, tais workflows. Também foi criada uma linguagem agnóstica na forma de uma eDSL (Embedded domain-specific language) inspirada nos conceitos da MDA (Model Driven Architecture) para execução de workflow centrado nos dados (dataflow) e um gerador de código Scala para execução no Apache Spark. O uso de UDF (User Defined Functions) escritas em linguagens diversas, regidas por operadores algébricos (funções de segunda ordem da programação funcional) permite processamento otimizado de dados estruturados, semiestruturados e não estruturados ampliando o domínio de aplicações para além do workflow científico, podendo, ser usado em workflows comerciais de análise de dados. As funcionalidades do ecossistema Apache Spark foram avaliadas no processo de otimização da execução de filtros (operador filter) e mapeamentos (operador map) que operam sobre UDF usando a API (Application Program Interface) Catalyst do SparkSQL, e os experimentos apontam a viabilidade desta abordagem.

Dissertação

 

 

Defesa de dissertação (06/02/2019): Rebecca Pontes Salles

Discente: Rebecca Pontes Salles

Título:  Benchmarking Nonstationary Time Series Prediction

Orientadores: Eduardo Soares Ogasawara (orientador), Pedro Henrique González Silva (coorientador)

Banca: Eduardo Soares Ogasawara (CEFET/RJ) (presidente), Pedro Henrique González Silva (CEFET/RJ), Eduardo Bezerra da Silva (CEFET/RJ), Fabio Andre Machado Porto (LNCC), Florent Masseglia (INRIA)

Dia/Hora: 06 de fevereiro / 9h

Sala: Auditório V

Resumo:

Data preprocessing is a crucial step for mining and learning from data, and one of its primary activities is the transformation of data. This activity is very important in the context of time series prediction since most time series models assume the property of stationarity, i.e., statistical properties do not change over time, which in practice is the exception and not the rule in most real datasets. There are several transformation methods designed to treat nonstationarity in time series. However, the choice of a transformation that is appropriate to the adopted data model and to the problem at hand is not a simple task. This paper provides a review and experimental analysis of methods for transformation of nonstationary time series. The focus of this work is to provide a background on the subject and a discussion on their advantages and limitations to the problem of time series prediction. A subset of the reviewed transformation methods is compared through an experimental evaluation using benchmark datasets from time series prediction competitions and other real macroeconomic datasets. Suitable nonstationary time series transformation methods provided improvements of more than 30% in prediction accuracy for half of the evaluated time series and improved the prediction in more than 95% for 10% of the time series. Furthermore, the adoption of a validation phase during model training enables the selection of suitable transformation methods.

Dissertação

Defesa de dissertação (05/02/2019): Rodrigo Tavares de Souza

Discente: Rodrigo Tavares de Souza

Título:  Appraisal-Spark: uma abordagem para imputação em larga escala

Orientadores: Jorge Abreu Soares (orientador)

Banca: Jorge Abreu Soares (CEFET/RJ) (presidente), Eduardo Soares Ogasawara (CEFET/RJ), Ronaldo Ribeiro Goldschmidt (IME)

Dia/Hora: 05 de fevereiro / 10h

Sala: Auditório V

Resumo:

Cresce continuamente o volume de dados armazenados e a demanda por integração entre os mesmos. Esse cenário aumenta a ocorrência de um problema bastante conhecido dos cientistas de dados: as diversas possibilidades de inconsistências. E um tipo de seus tipos comuns, a ausência de dados, pode prejudicar a análise e resultado de qualquer técnica produtora de informação. A imputação é a área que estuda métodos que buscam aproximar o valor imputado do real. A técnica de imputação composta aplica tarefas de aprendizado de máquina neste processo. Ela utiliza o conceito de plano de imputação, uma sequência lógica de estratégias e algoritmos utilizados na produção do valor imputado final. Neste trabalho, expandiremos a utilização desta técnica, complementando sua utilização com o classificador ensemble bagging. Neste método, os dados são divididos em grupos aleatórios e atrelados a classificadores chamados base learners. Para os subsets gerados no bagging serão retornadas as pontuações (percentual de assertividade) de cada plano de imputação. O plano com maior assertividade dentre todos os subsets será indicado como a sugestão de imputação para o conjunto completo. O trabalho é implementado em um sistema desenvolvido para a ferramenta Spark, denominado Appraisal-Spark, que tem como objetivo gerar valores com maior acurácia e desempenho preditivos para ambientes de larga escala. Através dele será possível compor diversos planos de imputação de alto desempenho, avaliando estratégias e comparando resultados.

Dissertação

Defesa de dissertação (06/12/2018): Leonardo de Souza Preuss

Discente: Leonardo de Souza Preuss

Título:  VITA – Uma ferramenta pedagógica para acompanhamento e auxílio na relação aluno-professor

Orientadores: Joel A. F. dos Santos, Gustavo Paiva Guedes (coorientador)

Banca: Joel A. F. dos Santos (CEFET/RJ) (presidente), Gustavo Paiva Guedes (CEFET/RJ), Eduardo Soares Ogasawara (CEFET/RJ), Alessandro Rosa Lopes Zachi (CEFET/RJ), Diego Gimenez Passos (UFF)

Dia/Hora: 06 de dezembro / 10h

Sala: Auditório V

Resumo:

Um grande problema do sistema de educação atual é o alto índice de evasão em cursos de graduação. Pesquisas na área da educação indicam que o nível de satisfação do estudante é um importante indicador na medida do sucesso de uma universidade. Estudantes com altos níveis de satisfação são mais propensos a continuar no curso, em contraste àqueles que estão insatisfeitos. Nas universidades brasileiras, a qualidade docente e o método de ensino são considerados fatores cruciais e altamente responsáveis na satisfação dos alunos. Nesse contexto, é de grande valia um mecanismo capaz de melhorar a percepção do professor a respeito dos alunos. Isso permite que o professor antecipe a insatisfação dos alunos em uma disciplina e tenha maior agilidade na compreensão de suas necessidades e na adequação das aulas. Reduzindo, assim, a taxa de evasão nas universidades brasileiras. O presente trabalho propõe um sistema que auxilia o professor na percepção do andamento dos alunos em suas aulas, revelando seu grau de satisfação ou insatisfação durante o período letivo. A avaliação é feita tendo como base comentários escritos sobre cada aula, fornecidos pelos alunos. A ferramenta proposta utiliza técnicas da Análise de Sentimentos para processar as avaliações e apresentar ao professor um resultado em formato de gráfico, individual ou por turma. Este gráfico indica apenas os sentimentos predominantes na avaliação do aluno. Assim, é mantida a privacidade do mesmo (com respeito à avaliação fornecida), bem como evita interpretações diferenciadas por parte do professor. Experimentos realizados com 4 turmas de graduação apontam para uma boa precisão da estimativa da satisfação feita por VITA e sua utilidade para professores.

Dissertação

Defesa de dissertação: Raphael Silva de Abreu

Discente: Raphael Silva de Abreu

Título: Autoria de Documentos Multimídia Interativos Baseada na Sincronização de Efeitos Sensoriais em Relação ao Conteúdo Audiovisual

Orientadores: Joel A. F. dos Santos, Eduardo Bezerra da Silva (coorientador)

Banca: Joel A. F. dos Santos (CEFET/RJ) (presidente), Eduardo Bezerra da Silva (CEFET/RJ), Gustavo Paiva Guedes e Silva (CEFET/RJ), Glauco Fiorott Amorim (CEFET/RJ), Débora Christina Muchaluat Saade (UFF)

Dia/Hora: 20 de julho / 10h

Sala: Auditório V

Resumo:

Avanços da computação ubíqua têm se mostrado importantes para aumentar os níveis de imersão de usuários em ambientes virtuais. Tais avanços impulsionam diversas pesquisas visando aumentar a imersão do usuário em aplicações multimídia. Uma delas é a adição de efeitos sensoriais, possibilitando as aplicações mulsemedia. Tais aplicações realizam interface com outros sentidos humanos além da visão e audição. Entretanto, o desenvolvimento destas aplicações necessita de um esforço de autoria para sincronizar efeitos sensoriais com conteúdo audiovisual. Além disso, aplicações interativas carecem de abstrações para facilitar a autoria de efeitos sensoriais. Portanto, este trabalho apresenta uma abordagem para facilitar a autoria de aplicações mulsemedia interativas. Para resolver essas questões, este trabalho se concentrou em três frentes. A primeira é o conceito de âncoras abstratas, que realiza a sincronização de efeitos sensoriais com um objeto de mídia de forma semiautomática. Neste contexto, é apresentado um processador para a linguagem NCL que utiliza redes neurais para identificar quando conteúdos são apresentados para realizar a sincronização. A segunda frente é uma arquitetura de rede neural bimodal, visando melhorar a identificação de conteúdo presentes em objeto audiovisual ao levar em consideração as modalidades de áudio e vídeo. A terceira frente é permitir a definição de efeitos sensoriais em linguagens multimídia declarativas, tornando possível a autoria de aplicações interativas com efeitos sensoriais de acordo com o padrão MPEG-V. Ainda este trabalho apresenta uma extensão do sistema de posicionamento do MPEG-V, permitindo o uso de coordenadas esféricas. Por fim, um simulador 3D de um ambiente mulsemedia interativo é apresentado. Como resultado, este trabalho facilita a autoria das seguintes formas. Primeiramente ao abstrair a sincronização de efeitos sensoriais. Em seguida por aprimorar o método de identificação do conteúdo de um objeto audiovisual. Por fim, permitindo uma definição mais genérica de efeitos sensoriais junto com seu posicionamento em aplicações multimídia interativas e, por meio do simulador 3D, dar suporte ao autor visualizar a execução destes efeitos.

Dissertação

Defesa de dissertação: Rafael Guimarães Rodrigues

Discente: Rafael Guimarães Rodrigues
Título: Análise de Aspectos Semânticos em Traduções Automáticas de Textos
Orientador: Gustavo Paiva Guedes e Silva
Banca:  Gustavo Paiva Guedes e Silva (CEFET/RJ) (Presidente), Eduardo Bezerra da Silva (CEFET/RJ), Eduardo Soares Ogasawara (CEFET/RJ) e Lilian Vieira Ferrari (UFRJ)
Dia/Hora: 4 de julho de 2018 / 10h
Sala: Auditório V
Resumo 
As traduções automáticas de texto surgiram nos anos 50, motivadas por questões militares. Atualmente esse tipo de tradução faz parte do nosso cotidiano e representa uma importante ferramenta para a comunicação no mundo globalizado, especialmente com a utilização de ferramentas de tradução automática de textos disponíveis em ambiente web. No entanto, apesar de tratar-se de uma área com mais de 60 anos de estudos, ainda há diversos desafios a serem superados, o que faz com que esse tipo de processo continue dependente de revisão humana. Existem, atualmente, diversas métricas para avaliar traduções automáticas de textos, dentre as quais, a métrica BLEU apresenta-se como o estado da arte. Essa métrica avalia a qualidade das traduções com base no pareamento exato e ordenado de palavras, sem considerar,
no entanto, a semântica (e.g., aspectos linguísticos e psicológicos) das sentenças avaliadas. Nesse cenário, o principal objetivo deste trabalho é propor uma nova métrica capaz de adicionar semântica às avaliações desse tipo de tradução. Como objetivo secundário, esse trabalho também contribui com dois algoritmos para auxiliar na identificação e quantificação de aspectos psicolinguísticos em traduções do inglês para
o português do Brasil. Para alcançar os objetivos propostos, este trabalho utiliza um léxico afetivo presente em uma ferramenta denominada LIWC (Linguistic Inquiry and Word Count). Esse léxico é capaz de contabilizar palavras em categorias que representam aspectos psicológicos e
linguísticos. Durante os experimentos foram utilizados dez textos traduzidos por dois especialistas humanos e por três dessas ferramentas já citadas. Os referidos textos foram utilizados para estabelecer uma comparação entre a métrica proposta e o estado da arte. Os testes também objetivaram avaliar possíveis problemas produzidos por ferramentas utilizadas para realizar esse tipo de tradução. Os resultados foram considerados promissores e indicam que esse estudo pode contribuir com novos trabalhos direcionados ao desenvolvimento de métricas para avaliação de traduções automáticas de textos e talvez até mesmo para trabalhos direcionados para o desenvolvimento de ferramentas que produzam esse tipo de tradução.
 Dissertação