Autor: Eduardo Ogasawara

Reunião Geral de Autoavaliação

O Programa de Pós-graduação em Ciência da Computação (PPCIC) do CEFET/RJ irá realizar a sua reunião geral de autoavaliação no dia 18 de dezembro das 9h30min às 12h. Na reunião será apresentado o relatório preliminar de autoavaliação. Será feita uma ampla discussão da autoavaliação do Programa com participação de representantes da Indústria, Empresas e Sociedade, Instituições de Ensino e Pesquisa, discentes, egressos e secretaria, além dos docentes do Programa. A partir das contribuições coletadas na reunião será produzida o relatório final de autoavaliação para a quadrienal 2017-2020.

Participantes

  • Docentes Permanentes do Programa
  • Representantes da Indústria, Empresas e Sociedade
    • Gabriela Ruberg (Banco Central do Brasil)
    • Ismael Santos (Petrobras)
    • Maria Luiza Reis (Assespro)
  • Representantes de Instituições de Ensino e Pesquisa
    • Debora Saade (UFF)
    • Fabio Porto (LNCC)
    • Philippe Navaux (UFRGS)
  • Representantes discentes
    • Luciana Varjolo
    • Lucas Tavares
    • Manoel Moraes
  • Representantes egressos
    • Rafaela Castro
    • Rebecca Salles
    • Roberto de Castro
  • Representantes da secretaria
    • Ivan Galloulckydio

Defesa de dissertação (05/05/2020): Gustavo Alexandre Sousa Santos

Discente: Gustavo Alexandre Sousa Santos

Título: EvolveDTree: Um Sistema de Mineração de Dados Educacionais Baseado em Árvore de Decisão e Algoritmo Genético para Classificar Evasão no Ensino Superior

Orientadores: Diego Nunes Brandão (orientador), Luis Domingues Tomé Jardim Tarrataca (CEFET/RJ) (co-orientador)

Banca: Diego Nunes Brandão (presidente), Luis Domingues Tomé Jardim Tarrataca (CEFET/RJ), Diego Barreto Haddad (CEFET/RJ), Eduardo Bezerra (CEFET/RJ),  Alexandre Plastino de Carvalho (UFF)

Dia/Hora: 5 de maio de 2020 / 14h

Sala remota: https://meet.google.com/rpi-zimz-oeo

Resumo:

A educação é um dos alicerces para o desenvolvimento econômico e social de um país. Garantir que os investimentos em educação sejam feitos de forma eficiente é um grande desafio para toda a sociedade. Neste aspecto, um dos grandes problemas da educação pública de nível superior ocorre quando os estudantes se desassociam da instituição sem completar o curso no qual estavam matriculados, caracterizando o fenômeno de evasão. Assim, os recursos investidos na formação desses estudantes acabam sendo perdidos, representando um desperdício financeiro significativo. Neste contexto, o desenvolvimento de ferramentas que auxiliem no processo de minimização dos casos de evasão torna-se imprescindível. O presente trabalho propõe o desenvolvimento de um sistema que permite avaliar diferentes técnicas de mineração de dados para classificar a tendência de um aluno abandonar ou graduar no curso em que está matriculado. Por meio desse sistema, busca-se a identificação de características que indiquem a evasão antes que ela ocorra, permitindo que alguma ação possa ser tomada de maneira a minimizá-la.
Para este objetivo, foi desenvolvido um Data Warehouse Educacional (EDW) que permite a integração dos dados educacionais de uma instituição de ensino superior. Os resultados obtidos demonstram que o EDW desenvolvido é robusto o suficiente para permitir que diversas análises sejam realizadas pela gestão acadêmica. Os modelos de classificação avaliados foram comparados por meio de diferentes métricas, destacando-se a estratégia baseada em árvores de decisão. Uma técnica de redução de dimensionalidade baseada em algoritmo genético também foi avaliada, permitindo uma diminuição do tempo de processamento da fase de treinamento em todos os modelos de classificação avaliados. Contudo, foi identificado um aumento no tempo total da abordagem proposta, quando avaliadas as fases de pré-processamento e treinamento, simultaneamente.

Dissertação

Análise de Dados

A análise de dados é uma área multidisciplinar focada na interpretação de grandes volumes de informações para embasar decisões, estratégias e inovação. Técnicas estatísticas e de aprendizado de máquina são utilizadas para identificar padrões e prever eventos futuros, abrangendo dados estruturados, semiestruturados e não estruturados. 

Em dados estruturados, os desafios incluem a análise de séries temporais e espaço-temporais, envolvendo predição, descoberta de padrões e adaptação a mudanças nos dados. Métodos como filtros e decomposição ajudam a construir modelos robustos para predições. A descoberta de eventos em séries temporais, como anomalias e mudanças, é relevante tanto para análises retrospectivas quanto em tempo real. 

Para dados semiestruturados e não estruturados, os desafios incluem mineração de textos e processamento de linguagem natural. A mineração de texto busca padrões e tendências por aprendizado estatístico e vetorização de textos, sendo aplicada em análise de sentimentos e computação afetiva, que estuda emoções em textos e interações humanas. Neste projeto, a mineração de texto está intimamente ligada à computação afetiva e análise comportamental, abrangendo também o processamento de imagens e vídeos. 

A análise comportamental examina indivíduos em redes sociais, utilizando grafos para identificar comunidades e entender dinâmicas de interação. Aplicações incluem marketing direcionado e propagação de informações, oferecendo insights sobre padrões coletivos e emocionais nas interações. 

Docentes Envolvidos: 

  • Eduardo Soares Ogasawara (responsável) 
  • Eduardo Bezerra da Silva 
  • Gustavo Paiva Guedes e Silva 
  • Jorge de Abreu Soares 
  • Kele Teixeira Belloze

Algoritmos e Modelos em Grafos

A área de Grafos estuda a relação entre elementos, chamados de nós, e suas conexões, denominadas arestas. Esse campo abrange desde modelos de redes tecnológicas até redes sociais e aeroviárias. Suas principais subáreas são a Ciência de Redes, que analisa as interações em sistemas complexos, e as Redes de Computadores, que fornecem a infraestrutura tecnológica para a comunicação global. 

A Ciência de Redes investiga como a estrutura e a dinâmica das conexões influenciam o comportamento global da rede. Questões como centralidade, robustez e padrões estruturais são analisadas para entender melhor redes sociais, econômicas e biológicas. O avanço da tecnologia e a explosão de dados nas últimas décadas ampliaram a relevância desse campo. 

Em Redes de Computadores, a definição da topologia é essencial para monitoramento eficiente. Esse processo pode ser modelado como um problema de otimização ou analisado como uma Rede Complexa, utilizando conceitos de grafos para estudar suas propriedades e eficiência. Além disso, o gerenciamento da infraestrutura e a comunicação dos dados exigem protocolos específicos para diferentes aplicações, como monitoramento ambiental, redes móveis e sistemas biomédicos. A eficiência desses protocolos é avaliada por métricas como taxa de entrega de pacotes, vazão da rede e consumo de energia. 

Este projeto visa desenvolver aplicações de grafos em diversas áreas, combinando simulação computacional e experimentos práticos. Além disso, busca aprimorar o design e a comunicação desses grafos, explorando novos protocolos para tornar a transmissão de informações mais eficiente e resiliente. 

Docentes Envolvidos: 

  • Diego Nunes Brandão (responsável) 
  • Felipe da Rocha Henriques 
  • Glauco Fiorott Amorim 
  • Helga Dolorico Balbi
  • Laura Silva de Assis 

Aprendizado de Máquina e Otimização

O Aprendizado de Máquina (AM) é um ramo da Inteligência Artificial voltado para o desenvolvimento de novos algoritmos e metodologias capazes de identificar padrões e tomar decisões sem necessidade de programação explícita. Mais do que apenas aplicações práticas, o avanço dessa área depende da criação de novas abordagens teóricas e computacionais, que ampliem a eficiência, interpretabilidade e generalização dos modelos. 

Este projeto de pesquisa investiga métodos avançados de AM, explorando desde técnicas tradicionais, como redes neurais profundas e modelos probabilísticos, até abordagens emergentes, como aprendizado auto-supervisionado, modelos generativos, aprendizado federado e aprendizado por reforço. Além disso, busca-se aprimorar estratégias de explicabilidade e interpretabilidade para tornar os modelos mais transparentes e confiáveis, especialmente em aplicações críticas. 

Outro pilar fundamental deste projeto é a Otimização, área que se integra ao AM para melhorar o desempenho de modelos e resolver problemas complexos em diversos domínios. Busca-se a concepção e aplicação de técnicas para a resolução de problemas por meio de modelos de programação linear, não linear, inteira ou mista (métodos exatos e/ou heurísticos), bem como métodos bio-inspirados como colônia de formigas, algoritmos genéticos, enxame de partículas. Técnicas de otimização aplicadas em ajustar os parâmetros dos modelos de aprendizado de máquina, bem como na seleção de atributos e em arquiteturas de redes neurais também são avaliados. 

Já a Computação Afetiva explora como os algoritmos de AM podem interpretar, processar e responder a estados emocionais humanos. Para isso, são investigados novos métodos para fusão de sinais fisiológicos e emocionais. O objetivo é avançar na construção de sistemas capazes de adaptar suas respostas de maneira mais natural e empática, com aplicações que vão desde interfaces conversacionais até robótica interativa. 

Docentes Envolvidos: 

  • Eduardo Bezerra da Silva (responsável) 
  • Gustavo Paiva Guedes e Silva 
  • Diogo Silveira Mendonça 
  • Diego Moreira de Araújo Carvalho 
  • Laura Silva de Assis

Aplicações Inteligentes

As Aplicações Inteligentes têm se tornado essenciais na otimização de processos e na tomada de decisões informadas. Sua integração com Robótica, Multimídia e Internet das Coisas (IoT) impulsiona inovações significativas. 

Na Robótica, aplicações inteligentes aprimoram a autonomia e a interação das máquinas, permitindo desde robôs assistentes pessoais até sistemas cirúrgicos avançados. Um foco especial está na robótica educacional, que combina tecnologia de ponta com abordagens lúdicas, desenvolvendo sistemas embarcados inteligentes e algoritmos de percepção. As soluções são testadas em competições tecnológicas para aprimorar seu desempenho antes da aplicação educacional. 

A Multimídia transformou o consumo de informações ao integrar vídeo, áudio, imagens e texto com algoritmos inteligentes. Isso possibilita experiências personalizadas, reconhecimento de fala e imagem e ambientes imersivos de realidade virtual, tornando a interação mais intuitiva e multisensorial. 

Na IoT, a Inteligência Artificial possibilita que objetos cotidianos coletem e analisem dados para criar ambientes mais eficientes e seguros. Com a convergência da IoT e da Inteligência Artificial, surge a AIoT (Artificial Intelligence of Things), que adiciona capacidades avançadas de aprendizado e tomada de decisão em dispositivos conectados. 

Este projeto de pesquisa explora como essas tecnologias podem revolucionar o ensino-aprendizagem, a sincronização de efeitos multisensoriais e o monitoramento ambiental, criando sistemas mais autônomos e eficientes. 

Docentes Envolvidos: 

  • Joel Andre Ferreira dos Santos (responsável) 
  • João Roberto de Toledo Quadros 
  • Glauco Fiorott Amorim 
  • Diego Nunes Brandão 

Engenharia de Software

Engenharia de Software é a área que estuda e aplica métodos científicos e tecnológicos ao ciclo de vida do software, garantindo abordagens sistemáticas e disciplinadas. Com a crescente dependência de software em celulares, computadores e dispositivos vestíveis, a qualidade e segurança desses sistemas tornam-se fundamentais. Além disso, tecnologias emergentes como Inteligência Artificial, Internet das Coisas (IoT), Blockchain e Realidade Virtual impõem novos desafios à engenharia de software. 

Este projeto de pesquisa investiga como a engenharia de software pode ser aplicada a essas tecnologias para maximizar seus benefícios à sociedade. No contexto da Blockchain, por exemplo, Smart Contracts viabilizam serviços inovadores, mas falhas de código podem causar prejuízos milionários, tornando a segurança um tema essencial.  Na IoT, a segurança também é primordial, pois falhas podem comprometer hardware e até colocar vidas em risco. O desenvolvimento de sistemas seguros, escaláveis e confiáveis torna-se um desafio dentro da Engenharia de Software. 

Jogos educativos são outra aplicação importante, ajudando na aprendizagem por meio da exploração do ambiente do jogo. O uso da proveniência dos dados permite analisar as ações dos jogadores, indicando seu comportamento e estratégias adotadas. 

Este projeto é aberto a outras investigações sobre tecnologias emergentes e seu impacto na sociedade, explorando abordagens inovadoras para o desenvolvimento de software. 

Docentes Envolvidos: 

  • Diogo Silveira Mendonça (responsável) 
  • Joel André Ferreira dos Santos 

Gerência e Administração de Base de Dados

O crescente volume de dados exige que organizações desenvolvam estratégias para extrair informações valiosas e obter vantagem competitiva. Esse processo envolve coleta, armazenamento, integração e análise de dados estruturados, semiestruturados e não estruturados. Metodologias são investigadas para gerenciar e transformar esses dados em conhecimento útil para a tomada de decisões. 

A pesquisa foca no uso de Inteligência Artificial centrada em dados (Data-Centric AI) para preparar informações e em técnicas de processamento em larga escala. Um dos desafios abordados é o processamento paralelo e distribuído de grandes volumes de dados heterogêneos, comum em áreas como bioinformática, astronomia e engenharia. Workflows científicos são essenciais para esses experimentos, sendo frequentemente executados em clusters, supercomputadores e nuvens. 

O projeto também explora frameworks como Apache Spark, otimizando workflows para análise e gerência de dados em larga escala. Além disso, investiga técnicas de modelagem conceitual, ontologias, pré-processamento, indexação e consulta em Big Data. Abordagens baseadas em armazenamento distribuído (HDFS), bancos de dados NoSQL, newSQL e sistemas relacional-objeto são consideradas neste projeto, visando eficiência na manipulação e análise dos dados. 

Docentes Envolvidos: 

  • Rafaelli de Carvalho Coutinho (responsável)  
  • Eduardo Soares Ogasawara 
  • Diego Moreira de Araújo Carvalho 
  • Jorge de Abreu Soares 
  • Kele Teixeira Belloze

Artigo de discente do Programa recebe prêmio de melhor artigo do SBBD 2019 (short, vision, industry)

O Simpósio Brasileiro de Banco de Dados (http://sbbd.org.br/2019) é o evento mais importante de Banco de Dados do Brasil. Neste ano, o discente Arthur Ronald e os Professores Eduardo Ogasawara e Kele Belloze receberam o prêmio de best paper (short, vision, industry) do SBBD 2019 com o trabalho intititulado “Modelo autorregressivo de integração adaptativa”.

Título: Modelo autorregressivo de integração adaptativa

Resumo:

Diversas técnicas de preprocessamento combinadas a modelos de séries temporais vêm sendo utilizadas para previsão de séries temporais não-estacionárias. O estudo das propriedades matemáticas e estatísticas dos dados e das técnicas de preprocessamento pode auxiliar no ajustamento de modelos de aprendizado de máquina. Tal estudo, entretanto, muitas vezes não é facilmente obtido. Modelos lineares, por sua vez, possibilitam a interpretação de tais propriedades. Este artigo introduz e analisa, por meio de prova de conceito, um novo modelo linear aplicado a séries estacionárias construídas com base em normalização adaptativa. O modelo viabiliza o uso de modelos autorregressivos em cenários de janelas deslizantes que preservam as propriedades da série original, e permitem acompanhar a sua inércia. O modelo foi capaz de apresentar desempenho de previsão superior a outros modelos lineares consolidados na literatura, principalmente em horizontes de curto-prazo.

 

 

Apresentação

Artigo

Temas de Pesquisa dos Docentes

Nesta página encontram-se os vídeos dos temas de pesquisa dos docentes permanentes do Programa que estão oferecendo vagas no processo seletivo.

 

Diego Brandão

 

Diego Haddad

https://youtu.be/SsPd5kO6yNM

 

Eduardo Bezerra

Eduardo Ogasawara

https://youtu.be/BcGEi66qWMA

 

Gustavo Guedes

 

João Quadros

 

Joel Santos

 

Kele Belloze

 

Laura Assis

 

Pedro Gonzalez

 

Rafaelli Coutinho

 

Projeto aprovado no Edital nº 01/2019 do ECG/TCE-RJ

Os professores Eduardo Bezerra e Leonardo Lima, juntamente com o discente do PPCIC Wellington Souza Amaral e pesquisador externo tiveram projeto sob título “Classificação automatizada de produtos da nota fiscal eletrônica de compras públicas” aprovado no Programa de pesquisa da Escola de Contas e Gestão do Tribunal de Contas do Estado do Rio de Janeiro (ECG/TCE-RJ) para Edital nº 01/2019. O programa de pesquisa da ECG/TCE-RJ tem como principal finalidade a promoção de estudos e pesquisas na área da administração pública.  Os projetos selecionados visam gerar contribuições para o aprimoramento da gestão pública, bem como dos procedimentos de trabalho do TCE-RJ.

O projeto aprovado objetiva desenvolver um modelo computacional para classificar bens e produtos adquiridos em compras públicas.

Tal solução consiste no desenvolvimento de um modelo computacional  que, a partir de bases de dados disponíveis, como os das notas fiscais eletrônicas, seja capaz de reunir em uma mesma categoria ou grupo, ocorrências de aquisições de bens, produtos e serviços de mesma natureza a ponto de viabilizar procedimentos analíticos confiáveis que resultem, por exemplo:

  • Na formação de um banco de preços confiável que possa ser utilizado como referência em processos de aquisição e de análise de economicidade;
  • Na elaboração de perfis de aquisição (tanto do ponto de vista quantitativo quanto qualitativo) de jurisdicionados que permitirão aos órgãos de controle monitorar e identificar eventuais desvios em relação a padrões de aquisição históricos ou de órgãos similares;
  • Na melhoria dos procedimentos de identificação de indícios de fracionamento de despesas; 
  • Na eventual publicização dos resultados produzidos pelo modelo computacional visando ao aprimoramento e ao estímulo do controle social em função do enriquecimento e da melhoria de qualidade dos dados abertos governamentais relacionados aos gastos públicos;

Com o uso da Mineração de dados pretende-se desenvolver uma metodologia para agrupar e classificar os bens e produtos adquiridos por órgãos da administração pública a fim de aumentar a capacidade analítica dos órgãos de Controle.

Aula inaugural do Programa de Pós-graduação em Ciência da Computação

O Programa de Pós-graduação em Ciência da Computação (PPCIC) do Cefet/RJ realiza a aula inaugural intitulada “Tratamento de dados: uma perspectiva evolutiva e multidisciplinar”, no dia 12 de agosto de 2019, às 10h, no Auditório 5 do campus Maracanã. A palestra será ministrada pela professora convidada Esther Pacitti, do curso de Ciência da Computação da Universidade de Montpellier, na França.

A aula inaugural irá abordar o contexto do crescimento da quantidade e da variedade de dados (imagens, áudio, pontos, matrizes, texto etc.), produzidos em diversas áreas (redes sociais, agronomia, botânica, medicina e outros), que fez aumentar também os desafios tecnológicos e de pesquisa no tratamento desse grande volume de dados, denominado pelo termo Big Data.

Na palestra, a professora Esther Pacitti irá apresentar uma visão da evolução dos métodos de tratamento de dados a partir do modelo relacional, de banco de dados distribuídos, de Big Data até a ciência de dados. Irá expor também algumas aplicações específicas da Agronomia, da Botânica e da Sismologia, e compartilhar experiências de pesquisa na França e no Brasil.

Sobre a palestrante

Esther Pacitti é professora de Ciência da Computação na Universidade de Montpellier, na França, e líder associada da equipe Zenith no Inria e no CNRS, desenvolvendo pesquisas em gerenciamento de dados científicos, incluindo Big Data, sistemas distribuídos e paralelos, sistemas de recomendação e recuperação de informações. Publicou mais de 100 artigos técnicos e é coautora dos livros P2P Techniques for Decentralized Applications e Data-Intensive Workflow Management For Clouds and Data-Intensive and Scalable Computing Environments, publicados pela Morgan & Claypool em 2012 e 2019, respectivamente. Ela é membro do comitê de programa de grandes conferências internacionais, como SIGMOD, VLDB, ICDE, CIKM, ICDCS e EDBT. Esther também é responsável pelas relações internacionais do Departamento de Informática e Gestão da Polytech Montpellier.

 

Maiores informações:

Defesa de dissertação (12/07/2019): Gabriel Nascimento dos Santos

Discente: Gabriel Nascimento dos Santos

Título: Tratamento de palavras fora do vocabulário em tarefas de análise de sentimentos com léxicos

Orientador: Gustavo Paiva Guedes e Silva (orientador)

Banca: Gustavo Paiva Guedes e Silva (presidente), Eduardo Bezerra da Silva (CEFET/RJ)  Fellipe Ribeiro Duarte (UFRRJ/RJ), Ronaldo Ribeiro Goldschmidt (IME-RJ)

Dia/Hora: 12 de julho de /2019 / 13h

Sala: Auditório 5

Resumo:

O número de usuários da internet que utilizam número de redes sociais, microblogs e sites de avaliação vem aumentando significantemente nos últimos anos. Com isso, usuários tendem a expor suas opiniões e transmitir o que sentem sobre determinado serviço, produto, e os mais diversos assuntos. Isto tem despertado o interesse de pesquisadores de processamento de linguagem natural, especialmente os de Análise de Sentimentos, que se interessam em explorar técnicas de extrair e entender as opiniões fornecidas pelos usuários que utilizam serviços orientados a opiniões. A Análise de Sentimentos possui três abordagens: a abordagem baseada em aprendizado de máquina, a abordagem baseada em léxicos e a abordagem híbrida. A abordagem baseada em léxicos e a abordagem híbrida sofrem com o problema de palavras fora do vocabulário ao lidar com a natureza dos textos de redes sociais. Lidar com textos provenientes de redes sociais é um grande desafio, pois eles variam de textos bem escritos a sentenças completamente sem sentido. Isso ocorre por diversos motivos, como a limitação do número de caracteres (como no Twitter) e até mesmo por erros ortográficos intencionais. Este trabalho propõe um algoritmo que utiliza word embeddings para tratar palavras fora do vocabulário em tarefas de Análise de Sentimentos com abordagens baseadas em léxico ou abordagens híbridas. A estratégia do algoritmo proposto é baseada na hipótese que palavras que tenham contextos parecidos, possuem significados semelhantes. O algoritmo consiste em eleger as palavras mais similares semanticamente e utilizar as categorias da mais próxima que esteja contida no léxico utilizado. Os experimentos foram conduzidos em três conjuntos de dados em Português do Brasil. Foram utilizados três classificadores e foram observadas melhorias de até 3,3% no F1 score após o uso do algoritmo proposto.

Dissertação

 

Defesa de dissertação (08/05/2019): Roberto de Castro Souza Pinto

Discente: Roberto de Castro Souza Pinto

Título: Ferramenta Robótica para Trabalho com Fotografia Avançada – TilBOT

Orientador: João Roberto de Toledo Quadros (orientador)

Banca: João Roberto de Toledo Quadros (presidente), Aline Gesualdi Manhães (CEFET/RJ)  Eduardo Soares Ogasawaa (CEFET/RJ), Joel André Ferreira dos Santos (CEFET/RJ), Paulo Fernando Ferreira Rosa (IME-RJ)

Dia/Hora: 8 de maio / 14h

Sala: Sala E 515

Resumo: Pesquisas científicas em diversas áreas do conhecimento têm feito uso da técnica cinematográfica de vídeos time-lapse para melhor observar diversos fenômenos da natureza. Essa técnica consiste na criação de vídeos por meio da captura de imagens com uma frequência menor do que quando são reproduzidos, criando uma sensação em que o tempo parece passar mais rápido que o normal. Eventos da natureza, tais como, crescimento de plantas, movimentos de marés, rochas e geleiras, que levam até meses para ocorrer, podem ser vistos em poucos segundos. Pântanos, desertos e até locais submersos, são os lugares de difícil acesso e onde normalmente esses fenômenos ocorrem e precisam ser observados. Câmeras configuradas em modo de disparo contínuo e/ou acopladas a equipamentos especiais que controlam o disparo da câmera, são utilizados para esse fim e estão sujeitos aos efeitos das intempéries desses lugares. Além disso, há um alto custo envolvido com esses equipamentos, sua manutenção e operação. Nesse trabalho é apresentado o TilBOT, uma ferramenta robótica equipada que com uma câmera fotográfica embarcada que vem a atender aos requisitos operacionais associados a configuração, aplicação e custo para obtenção de dados não convencionais do tipo fotografias e vídeos time-lapse e, além de possuir características diferenciais das ferramentas hoje utilizadas para obtenção de dados científicos dessa natureza. Dentre essas novas características se cita a capacidade de utilizar-se do tempo ocioso no processo de captura de imagens para esse tipo de mídia e as novas implementações de mobilidade da ferramenta, com seus vários motores confeccionados para multiposicionamento e de operação da câmera. O TilBOT executa as instruções contidas em um projeto fotográfico que o instrui a movimentar a sua câmera, sendo capaz, com isso, de capturar imagens para a geração de múltiplos vídeos time-lapse a partir de uma mesma coordenada, utilizando-se de um só equipamento, diminuindo a complexidade do processo e reduzindo custos operacionais de obtenção dos dados. Desta feita, o TilBOT é uma ferramenta que facilita a construção de projetos científicos e educacionais que fizerem uso desse tipo de dados não-convencional, no caso, as imagens e os vídeos time-lapse. O TilBOT também pode ser utilizado para a captura de imagens de fotografias digitais avançada para uso em sistemas educacionais, de modo que se possa construir projetos fotográficos com panorâmica horizontal, vertical e 360o imersiva e empilhamento de imagens nas áreas de biologia, geografia e astronomia.

Dissertação

 

Defesa de dissertação (28/03/2019): Flavio Matias Damasceno de Carvalho

Discente: Flavio Matias Damasceno de Carvalho

Título: Desenvolvimento do Dicionário LIWC 2015 em Português do Brasil

Orientadores: Gustavo Paiva Guedes e Silva (orientador)

Banca: Gustavo Paiva Guedes e Silva (CEFET/RJ) (presidente), Eduardo Soares Ogasawara (CEFET/RJ), Joel André Ferreira dos Santos (CEFET/RJ), Lilian Vieira Ferrari (UFRJ)

Dia/Hora: 28 de março / 10h

Sala: Auditório V

Resumo

Uma grande variedade e quantidade de textos são escritos e armazenados em formato digital devido ao desenvolvimento e disseminação de dispositivos computacionais. Dessa grande quantidade de dados textuais, informações úteis podem ser obtidas com técnicas e metodologias da área de Mineração de Texto. Uma dessas metodologias consiste em analisar textos com o Linguistic Inquiry and Word Count, um programa que possui várias versões que foram melhoradas ao longo dos anos. Além de utilizar o arquivo de dicionário padrão, o programa pode utilizar dicionários personalizados ou dicionários traduzidos para outros idiomas. Na utilização com o dicionário traduzido para o português, baseado no dicionário em inglês da versão 2007 do LIWC, as avaliações mostram questões relacionadas ao desempenho da detecção de valência negativa, junto com erros ortográficos e palavras com problemas relacionados à categorização, o que impacta negativamente os resultados obtidos. Desenvolvemos este trabalho observando um aumento no uso desse recurso em estudos acadêmicos nos últimos anos, evidenciado pelo crescente número de citações ao artigo de publicação do dicionário com a tradução para o português. Como não temos conhecimento do desenvolvimento de uma versão mais recente em português e reconhecendo a necessidade de métodos para analisar texto na língua portuguesa, iniciamos o desenvolvimento de uma nova versão em português do dicionário para o LIWC. Trabalhamos com o conjunto de palavras disponíveis na versão de 2015 em inglês e produzimos um novo dicionário compatível com a última versão disponível do programa. Para verificar o desempenho em tarefas de classificação, realizamos experimentos para classificar: (i) autores de textos e (ii) conteúdo das publicações nas redes sociais de acordo com a polaridade do sentimento. As medidas utilizadas para avaliar os resultados obtidos pelos algoritmos de classificação empregados apresentaram valores maiores na nova versão em português do dicionário, comparando com o dicionário atual. Esses experimentos sugerem que o ajuste de palavras a categorias que correspondam adequadamente às características linguísticas e psicológicas permite melhores resultados nas tarefas associadas às áreas de Computação Afetiva e Análise de Sentimentos.

Dissertação

 

Defesa de dissertação (25/02/2019): João Antônio de Ferreira

Discente: João Antônio de Ferreira

Título:  Um framework Algébrico para Workflows de Análise de Dados em Apache Spark

Orientadores: Eduardo Soares Ogasawara (orientador), Rafaelli de Carvalho Coutinho (coorientador)

Banca: Eduardo Soares Ogasawara (CEFET/RJ) (presidente),
Rafaelli de Carvalho Coutinho (CEFET/RJ), Jorge de Abreu Soares (CEFET/RJ), Fabio Andre Machado Porto (LNCC), Leonardo Gresta Paulino Murta (UFF)

Dia/Hora: 25 de fevereiro / 14h

Sala: H522

Resumo:

A atividade típica de um cientista de dados envolve a implementação de diversos processos que caracterizam experimentos de análise de dados, modelados como workflows. Nestas análises há a necessidade de executar diversos códigos em diferentes linguagens de programação (Python, R, C, Java, Kotlin e Scala) em diferentes ambientes de processamento paralelo e distribuído. Dependendo da complexidade do processo e das inúmeras possibilidades para execução distribuída destas soluções, pode ser necessário gastar muita energia em diferentes implementações que podem afastar o cientista de dados do seu objetivo final, que é o de produzir conhecimento a partir dos grandes volumes de dados. Dentro deste contexto, este trabalho visa apoiar na solução de tal dificuldade ao propor a construção do framework WfF, concebido a partir de uma abordagem algébrica que isola a modelagem do processo da dificuldade de executar, de modo otimizado, tais workflows. Também foi criada uma linguagem agnóstica na forma de uma eDSL (Embedded domain-specific language) inspirada nos conceitos da MDA (Model Driven Architecture) para execução de workflow centrado nos dados (dataflow) e um gerador de código Scala para execução no Apache Spark. O uso de UDF (User Defined Functions) escritas em linguagens diversas, regidas por operadores algébricos (funções de segunda ordem da programação funcional) permite processamento otimizado de dados estruturados, semiestruturados e não estruturados ampliando o domínio de aplicações para além do workflow científico, podendo, ser usado em workflows comerciais de análise de dados. As funcionalidades do ecossistema Apache Spark foram avaliadas no processo de otimização da execução de filtros (operador filter) e mapeamentos (operador map) que operam sobre UDF usando a API (Application Program Interface) Catalyst do SparkSQL, e os experimentos apontam a viabilidade desta abordagem.

Dissertação

 

 

Defesa de dissertação (06/02/2019): Rebecca Pontes Salles

Discente: Rebecca Pontes Salles

Título:  Benchmarking Nonstationary Time Series Prediction

Orientadores: Eduardo Soares Ogasawara (orientador), Pedro Henrique González Silva (coorientador)

Banca: Eduardo Soares Ogasawara (CEFET/RJ) (presidente), Pedro Henrique González Silva (CEFET/RJ), Eduardo Bezerra da Silva (CEFET/RJ), Fabio Andre Machado Porto (LNCC), Florent Masseglia (INRIA)

Dia/Hora: 06 de fevereiro / 9h

Sala: Auditório V

Resumo:

Data preprocessing is a crucial step for mining and learning from data, and one of its primary activities is the transformation of data. This activity is very important in the context of time series prediction since most time series models assume the property of stationarity, i.e., statistical properties do not change over time, which in practice is the exception and not the rule in most real datasets. There are several transformation methods designed to treat nonstationarity in time series. However, the choice of a transformation that is appropriate to the adopted data model and to the problem at hand is not a simple task. This paper provides a review and experimental analysis of methods for transformation of nonstationary time series. The focus of this work is to provide a background on the subject and a discussion on their advantages and limitations to the problem of time series prediction. A subset of the reviewed transformation methods is compared through an experimental evaluation using benchmark datasets from time series prediction competitions and other real macroeconomic datasets. Suitable nonstationary time series transformation methods provided improvements of more than 30% in prediction accuracy for half of the evaluated time series and improved the prediction in more than 95% for 10% of the time series. Furthermore, the adoption of a validation phase during model training enables the selection of suitable transformation methods.

Dissertação

Defesa de dissertação (05/02/2019): Rodrigo Tavares de Souza

Discente: Rodrigo Tavares de Souza

Título:  Appraisal-Spark: uma abordagem para imputação em larga escala

Orientadores: Jorge Abreu Soares (orientador)

Banca: Jorge Abreu Soares (CEFET/RJ) (presidente), Eduardo Soares Ogasawara (CEFET/RJ), Ronaldo Ribeiro Goldschmidt (IME)

Dia/Hora: 05 de fevereiro / 10h

Sala: Auditório V

Resumo:

Cresce continuamente o volume de dados armazenados e a demanda por integração entre os mesmos. Esse cenário aumenta a ocorrência de um problema bastante conhecido dos cientistas de dados: as diversas possibilidades de inconsistências. E um tipo de seus tipos comuns, a ausência de dados, pode prejudicar a análise e resultado de qualquer técnica produtora de informação. A imputação é a área que estuda métodos que buscam aproximar o valor imputado do real. A técnica de imputação composta aplica tarefas de aprendizado de máquina neste processo. Ela utiliza o conceito de plano de imputação, uma sequência lógica de estratégias e algoritmos utilizados na produção do valor imputado final. Neste trabalho, expandiremos a utilização desta técnica, complementando sua utilização com o classificador ensemble bagging. Neste método, os dados são divididos em grupos aleatórios e atrelados a classificadores chamados base learners. Para os subsets gerados no bagging serão retornadas as pontuações (percentual de assertividade) de cada plano de imputação. O plano com maior assertividade dentre todos os subsets será indicado como a sugestão de imputação para o conjunto completo. O trabalho é implementado em um sistema desenvolvido para a ferramenta Spark, denominado Appraisal-Spark, que tem como objetivo gerar valores com maior acurácia e desempenho preditivos para ambientes de larga escala. Através dele será possível compor diversos planos de imputação de alto desempenho, avaliando estratégias e comparando resultados.

Dissertação