Categoria:Notícias

Artigo de docente do PPCIC é premiado como “best paper” pela Sociedade Brasileira de Robótica

O docente Diego Haddad do PPCIC conseguiu o prêmio de melhor artigo do LARS/SBR 2019, o maior evento de robótica da América Latina, que aconteceu entre os dias 22 e 26 de outubro na Universidade Federal do Rio Grande (FURG) com o trabalho intitulado “A novel sequential activation method for the locomotion of quadrupedal soft robots” (e acessível em https://ieeexplore.ieee.org/document/9018579).

O evento internacional foi composto por diversos subeventos: a Mostra Nacional de Robótica (MNR); as finais da Olimpíada Brasileira de Robótica (OBR); a Competição Brasileira de Robótica (CBR), a Competição de Robótica Latino-americana (LARC); o Workshop de Robótica na Educação (WRE); o Simpósio Brasileiro de Robótica (SBR); e o Simpósio Latino-americano de Robótica (LARS).

Promovido pela Sociedade Brasileira de Computação (SBC), pelo Institute of Electrical and Electronic Engineers (IEEE) e pelo RobCup Brasil, o evento visa promover um abrangente encontro científico na área de Robótica Inteligente. A programação incluiu sessões técnicas de apresentação oral de trabalhos completos e palestras técnicas de reconhecida importância na área.

Defesa de dissertação (13/11/2019): Leonardo da Silva Moreira

Discente: Leonardo da Silva Moreira

Título: Evaluation of Data Preprocessing Methods for Predicting Brazilian Flight Delays

Orientador: Jorge de Abreu Soares (orientador), Eduardo Soares Ogasawara (co-orientador)

Banca: Jorge de Abreu Soares (presidente), Eduardo Soares Ogasawara (CEFET/RJ), Eduardo Bezerra da Silva (CEFET/RJ), Leonardo Gresta Paulino Murta (IC/UFF)

Dia/Hora: 13 de novembro de 2019 /14 horas

Sala: E-522

Resumo:

Em 2016, as receitas do setor de serviços aéreos do Brasil alcançaram um recorde histórico de receita de R$35,59 bilhões, transportando 109,6 milhões de passageiros de acordo com levantamento da Agência Nacional de Aviação Civil (ANAC). Considerando esse cenário, atrasos nos voos causam vários inconvenientes para as companhias aéreas, aeroportos e passageiros como ocorreram entre 2009 e 2015, onde cerca de 22% dos voos domésticos realizados no Brasil sofreram atrasos superiores a 15 minutos. A previsão desses atrasos é fundamental para mitigar sua ocorrência e otimizar o processo de tomada de decisão de um sistema de transporte aéreo. Particularmente, companhias aéreas, aeroportos e usuários podem estar mais interessados em saber quando é provável que ocorram atrasos do que a previsão precisa de quando não ocorrerão. Neste contexto, esta pesquisa apresenta uma avaliação experimental de métodos de pré-processamento de dados para modelos de classificação de aprendizado de máquina para a predição dos atrasos aéreos, de forma a identificar quais métodos e combinações destes métodos podem auxiliar na melhora da predição e dos resultados do classificador sob uma distribuição desequilibrada de classes de atraso. Para isto a metodologia utilizada inclui a integração de dados aéreos e meteorológicos, etapas de pré-processamento [limpeza, transformação, redução] e finalmente a comparação da predição de dados a partir destes diferentes métodos de pré-processamento. Particularmente, esta pesquisa contribui com a análise de um espectro de métodos de pré-processamento de dados quando comparado à revisão bibliográfica, focando especialmente a distribuição das classes de atraso. Incluem-se entre os objetivos deste trabalho a verificação mais detalhada em relação aos atributos do classificador,a normalização e discretização, principalmente no que diz respeito à faixa de parâmetros do filtro.

Dissertação

 [:en]Student: Leonardo da Silva Moreira

Title: Evaluation of Data Preprocessing Methods for Predicting Brazilian Flight Delays

Advisors: Jorge de Abreu Soares (advisor), Eduardo Soares Ogasawara (co-advisor)

Committee: Jorge de Abreu Soares (president), Eduardo Soares Ogasawara (CEFET/RJ), Eduardo Bezerra da Silva (CEFET/RJ), Leonardo Gresta Paulino Murta (IC/UFF)

Day/Time: November 13, 2019 / 14h

Room: E-522

Abstract:

In 2016, revenues from Brazil’s air services sector reached record revenue of $ R$ 35.59$ billion, transporting 109.6 million passengers, according to a survey by the National Civil Aviation Agency (ANAC). Considering this scenario, delays in flights cause several inconveniences to airlines, airports, and passengers as they occurred between 2009 and 2015, where about 22% of domestic flights made in Brazil were delayed for more than 15 minutes. Predicting these delays is critical to mitigate their occurrence and optimize the decision-making process of an air transport system. In particular, airlines, airports, and users may be more interested in knowing when delays are likely to occur than the forecast needs to know when they will not occur. In this context, this research presents an experimental evaluation of data preprocessing methods for machine learning classification models for the prediction of flight delays, in order to identify which methods and combinations of these methods can help improve prediction and results of the classifier under an unbalanced distribution of delay classes. For this, the methodology used includes the integration of aerial and meteorological data, pre-processing steps [cleaning, transformation, reduction] and finally the comparison of data prediction from these different pre-processing methods. In particular, this research contributes to the analysis of a spectrum of data preprocessing methods when compared to the bibliographic review, especially focusing on the distribution of delay classes. Among the objectives of this work are the more detailed verification in relation to the attributes of the classifier, the normalization, and discretization, mainly with respect to the range of parameters of the filter.

Dissertation

 

Artigo de discente do Programa recebe prêmio de melhor artigo do SBBD 2019 (short, vision, industry)

O Simpósio Brasileiro de Banco de Dados (http://sbbd.org.br/2019) é o evento mais importante de Banco de Dados do Brasil. Neste ano, o discente Arthur Ronald e os Professores Eduardo Ogasawara e Kele Belloze receberam o prêmio de best paper (short, vision, industry) do SBBD 2019 com o trabalho intititulado “Modelo autorregressivo de integração adaptativa”.

Título: Modelo autorregressivo de integração adaptativa

Resumo:

Diversas técnicas de preprocessamento combinadas a modelos de séries temporais vêm sendo utilizadas para previsão de séries temporais não-estacionárias. O estudo das propriedades matemáticas e estatísticas dos dados e das técnicas de preprocessamento pode auxiliar no ajustamento de modelos de aprendizado de máquina. Tal estudo, entretanto, muitas vezes não é facilmente obtido. Modelos lineares, por sua vez, possibilitam a interpretação de tais propriedades. Este artigo introduz e analisa, por meio de prova de conceito, um novo modelo linear aplicado a séries estacionárias construídas com base em normalização adaptativa. O modelo viabiliza o uso de modelos autorregressivos em cenários de janelas deslizantes que preservam as propriedades da série original, e permitem acompanhar a sua inércia. O modelo foi capaz de apresentar desempenho de previsão superior a outros modelos lineares consolidados na literatura, principalmente em horizontes de curto-prazo.

 

 

Apresentação

Artigo

Temas de Pesquisa dos Docentes

Nesta página encontram-se os vídeos dos temas de pesquisa dos docentes permanentes do Programa que estão oferecendo vagas no processo seletivo.

 

Diego Brandão

 

Diego Haddad

https://youtu.be/SsPd5kO6yNM

 

Eduardo Bezerra

Eduardo Ogasawara

https://youtu.be/BcGEi66qWMA

 

Gustavo Guedes

 

João Quadros

 

Joel Santos

 

Kele Belloze

 

Laura Assis

 

Pedro Gonzalez

 

Rafaelli Coutinho

 

Docentes do PPCIC estão na organização do SBrT 2019

O Simpósio Brasileiro de Telecomunicações e Processamento de Sinais é organizado pela Sociedade Brasileira de Telecomunicações (SBrT). A SBrT foi fundada em 1983, e é uma sociedade científica sem fins lucrativos que reúne profissionais dos setores acadêmico, industrial e de serviços de telecomunicações e áreas afins. Em setembro de 1983, realizou-se o primeiro Simpósio Brasileiro de Telecomunicações no Rio de Janeiro. Desde então a Sociedade Brasileira de Telecomunicações organiza anualmente o Simpósio Brasileiro de Telecomunicações (SBrT), que se tornou o fórum de referência para os profissionais do setor. Em sua trigésima sétima edição, o Simpósio Brasileiro de Telecomunicações e Processamento de Sinais será realizado em Petrópolis/RJ entre os dias 29 de setembro e 02 de outubro de 2019. O tema geral do SBrT em 2019 é Comunicação, Aprendizado e Cooperação entre Máquinas, Objetos e Humanos. Esta edição do SBrT contará com a participação dos seguintes docentes do PPCIC:
  • prof. Diego Barreto Haddad, como Coordenador de Minicursos;
  • prof. Felipe da Rocha Henriques, como Coordenador Local.
Mais informações sobre o evento em: http://sbrt.org.br/sbrt2019/

Projetos aprovados para apoio ao WebMedia 2019

O professor Joel Santos teve aprovados os projetos CAPES PAEP (Edital 07/2019) e FAPERJ APQ2 (Edital 03/2019) para apoio a eventos científicos. Ambos os projetos apoiarão a realização do XXV Simpósio Brasileiro de Sistemas Multimídia e Web (WebMedia 2019) a ser realizado no CEFET/RJ de 29 de outubro a 1 de novembro.

Vagas para alunos ouvintes

Já está disponível o quantitativo de vagas e critérios para seleção de alunos ouvintes para o terceiro trimestre de 2019. Mais informações na página de alunos ouvintes.

Projeto aprovado no Edital nº 01/2019 do ECG/TCE-RJ

Os professores Eduardo Bezerra e Leonardo Lima, juntamente com o discente do PPCIC Wellington Souza Amaral e pesquisador externo tiveram projeto sob título “Classificação automatizada de produtos da nota fiscal eletrônica de compras públicas” aprovado no Programa de pesquisa da Escola de Contas e Gestão do Tribunal de Contas do Estado do Rio de Janeiro (ECG/TCE-RJ) para Edital nº 01/2019. O programa de pesquisa da ECG/TCE-RJ tem como principal finalidade a promoção de estudos e pesquisas na área da administração pública.  Os projetos selecionados visam gerar contribuições para o aprimoramento da gestão pública, bem como dos procedimentos de trabalho do TCE-RJ.

O projeto aprovado objetiva desenvolver um modelo computacional para classificar bens e produtos adquiridos em compras públicas.

Tal solução consiste no desenvolvimento de um modelo computacional  que, a partir de bases de dados disponíveis, como os das notas fiscais eletrônicas, seja capaz de reunir em uma mesma categoria ou grupo, ocorrências de aquisições de bens, produtos e serviços de mesma natureza a ponto de viabilizar procedimentos analíticos confiáveis que resultem, por exemplo:

  • Na formação de um banco de preços confiável que possa ser utilizado como referência em processos de aquisição e de análise de economicidade;
  • Na elaboração de perfis de aquisição (tanto do ponto de vista quantitativo quanto qualitativo) de jurisdicionados que permitirão aos órgãos de controle monitorar e identificar eventuais desvios em relação a padrões de aquisição históricos ou de órgãos similares;
  • Na melhoria dos procedimentos de identificação de indícios de fracionamento de despesas; 
  • Na eventual publicização dos resultados produzidos pelo modelo computacional visando ao aprimoramento e ao estímulo do controle social em função do enriquecimento e da melhoria de qualidade dos dados abertos governamentais relacionados aos gastos públicos;

Com o uso da Mineração de dados pretende-se desenvolver uma metodologia para agrupar e classificar os bens e produtos adquiridos por órgãos da administração pública a fim de aumentar a capacidade analítica dos órgãos de Controle.

Aula inaugural do Programa de Pós-graduação em Ciência da Computação

O Programa de Pós-graduação em Ciência da Computação (PPCIC) do Cefet/RJ realiza a aula inaugural intitulada “Tratamento de dados: uma perspectiva evolutiva e multidisciplinar”, no dia 12 de agosto de 2019, às 10h, no Auditório 5 do campus Maracanã. A palestra será ministrada pela professora convidada Esther Pacitti, do curso de Ciência da Computação da Universidade de Montpellier, na França.

A aula inaugural irá abordar o contexto do crescimento da quantidade e da variedade de dados (imagens, áudio, pontos, matrizes, texto etc.), produzidos em diversas áreas (redes sociais, agronomia, botânica, medicina e outros), que fez aumentar também os desafios tecnológicos e de pesquisa no tratamento desse grande volume de dados, denominado pelo termo Big Data.

Na palestra, a professora Esther Pacitti irá apresentar uma visão da evolução dos métodos de tratamento de dados a partir do modelo relacional, de banco de dados distribuídos, de Big Data até a ciência de dados. Irá expor também algumas aplicações específicas da Agronomia, da Botânica e da Sismologia, e compartilhar experiências de pesquisa na França e no Brasil.

Sobre a palestrante

Esther Pacitti é professora de Ciência da Computação na Universidade de Montpellier, na França, e líder associada da equipe Zenith no Inria e no CNRS, desenvolvendo pesquisas em gerenciamento de dados científicos, incluindo Big Data, sistemas distribuídos e paralelos, sistemas de recomendação e recuperação de informações. Publicou mais de 100 artigos técnicos e é coautora dos livros P2P Techniques for Decentralized Applications e Data-Intensive Workflow Management For Clouds and Data-Intensive and Scalable Computing Environments, publicados pela Morgan & Claypool em 2012 e 2019, respectivamente. Ela é membro do comitê de programa de grandes conferências internacionais, como SIGMOD, VLDB, ICDE, CIKM, ICDCS e EDBT. Esther também é responsável pelas relações internacionais do Departamento de Informática e Gestão da Polytech Montpellier.

 

Maiores informações:

Docente do programa organiza o XIII Brazilian e-Science Workshop

O XIII Brazilian e-Science Workshop (BreSci) tem como objetivo colaborar com os esforços de e-Ciência propondo um fórum amplo de discussão sobre os temas envolvidos no desenvolvimento de infraestrutura de software em apoio às ciências como uma nova plataforma de pesquisa e experimentação científica.

O BreSci 2019, em sua décima terceira edição, sendo a décima edição no Congresso da Sociedade Brasileira de Computação (CSBC) acontecerá dos dias 17 e 18 de julho e será coordenado pelos professores Eduardo Ogasawara  do PPCIC e Daniel de Oliveira (UFF).

Site do evento:

http://csbc2019.sbc.org.br/eventos/13bresci/

XXV Brazilian Symposium on Multimedia and Web (WebMedia 2019)

Promovido anualmente pela Sociedade Brasileira de Computação (SBC), o Simpósio Brasileiro de Sistemas Multimídia e Web (WebMedia) é o principal evento do tema no Brasil e uma excelente oportunidade de intercâmbio científico e técnico entre alunos, pesquisadores e profissionais das áreas de Multimídia, Hipermídia e Web. O WebMedia 2019 será realizado de 29 de outubro a 01 de novembro no CEFET/RJ, campus Maracanã, e os seguintes docentes do PPCIC estarão na organização:

  • Joel Santos, como Coordenador Geral do evento;
  • Kele Belloze, como co-Coordenadora do Workshop de Trabalhos de Iniciação Científica; e,
  • Diego Brandão como membro do Comitê Local.

Site do evento:

https://webmedia.org.br/2019/

Defesa de dissertação (12/07/2019): Gabriel Nascimento dos Santos

Discente: Gabriel Nascimento dos Santos

Título: Tratamento de palavras fora do vocabulário em tarefas de análise de sentimentos com léxicos

Orientador: Gustavo Paiva Guedes e Silva (orientador)

Banca: Gustavo Paiva Guedes e Silva (presidente), Eduardo Bezerra da Silva (CEFET/RJ)  Fellipe Ribeiro Duarte (UFRRJ/RJ), Ronaldo Ribeiro Goldschmidt (IME-RJ)

Dia/Hora: 12 de julho de /2019 / 13h

Sala: Auditório 5

Resumo:

O número de usuários da internet que utilizam número de redes sociais, microblogs e sites de avaliação vem aumentando significantemente nos últimos anos. Com isso, usuários tendem a expor suas opiniões e transmitir o que sentem sobre determinado serviço, produto, e os mais diversos assuntos. Isto tem despertado o interesse de pesquisadores de processamento de linguagem natural, especialmente os de Análise de Sentimentos, que se interessam em explorar técnicas de extrair e entender as opiniões fornecidas pelos usuários que utilizam serviços orientados a opiniões. A Análise de Sentimentos possui três abordagens: a abordagem baseada em aprendizado de máquina, a abordagem baseada em léxicos e a abordagem híbrida. A abordagem baseada em léxicos e a abordagem híbrida sofrem com o problema de palavras fora do vocabulário ao lidar com a natureza dos textos de redes sociais. Lidar com textos provenientes de redes sociais é um grande desafio, pois eles variam de textos bem escritos a sentenças completamente sem sentido. Isso ocorre por diversos motivos, como a limitação do número de caracteres (como no Twitter) e até mesmo por erros ortográficos intencionais. Este trabalho propõe um algoritmo que utiliza word embeddings para tratar palavras fora do vocabulário em tarefas de Análise de Sentimentos com abordagens baseadas em léxico ou abordagens híbridas. A estratégia do algoritmo proposto é baseada na hipótese que palavras que tenham contextos parecidos, possuem significados semelhantes. O algoritmo consiste em eleger as palavras mais similares semanticamente e utilizar as categorias da mais próxima que esteja contida no léxico utilizado. Os experimentos foram conduzidos em três conjuntos de dados em Português do Brasil. Foram utilizados três classificadores e foram observadas melhorias de até 3,3% no F1 score após o uso do algoritmo proposto.

Dissertação

 

V Escola Regional de Alto Desempenho do Rio de Janeiro

 

A V Escola Regional de Alto Desempenho do Rio de Janeiro (ERAD-RJ 2019) tem o objetivo de estimular o estudo e a pesquisa nas áreas de Arquitetura de Computadores, Processamento de Alto Desempenho, Sistemas Distribuídos e Aplicações, qualificar profissionais do Estado nas áreas que compõe o Processamento de Alto Desempenho e prover um fórum regular onde possam ser apresentados avanços recentes nesta área e discutidas as formas de ensino de alto desempenho nas universidades e institutos de pesquisa do estado do Rio de Janeiro.

A edição de 2019 acontecerá entre os dias 04 e 06 de setembro no CEFET/RJ, campus Maracanã, e será organizada pelos docentes do PPCIC:

  • Diego Brandão
  • Rafaelli Coutinho

Para mais informações sobre o evento: http://www.sbc.org.br/eradrj2019

 

Defesa de dissertação (08/05/2019): Roberto de Castro Souza Pinto

Discente: Roberto de Castro Souza Pinto

Título: Ferramenta Robótica para Trabalho com Fotografia Avançada – TilBOT

Orientador: João Roberto de Toledo Quadros (orientador)

Banca: João Roberto de Toledo Quadros (presidente), Aline Gesualdi Manhães (CEFET/RJ)  Eduardo Soares Ogasawaa (CEFET/RJ), Joel André Ferreira dos Santos (CEFET/RJ), Paulo Fernando Ferreira Rosa (IME-RJ)

Dia/Hora: 8 de maio / 14h

Sala: Sala E 515

Resumo: Pesquisas científicas em diversas áreas do conhecimento têm feito uso da técnica cinematográfica de vídeos time-lapse para melhor observar diversos fenômenos da natureza. Essa técnica consiste na criação de vídeos por meio da captura de imagens com uma frequência menor do que quando são reproduzidos, criando uma sensação em que o tempo parece passar mais rápido que o normal. Eventos da natureza, tais como, crescimento de plantas, movimentos de marés, rochas e geleiras, que levam até meses para ocorrer, podem ser vistos em poucos segundos. Pântanos, desertos e até locais submersos, são os lugares de difícil acesso e onde normalmente esses fenômenos ocorrem e precisam ser observados. Câmeras configuradas em modo de disparo contínuo e/ou acopladas a equipamentos especiais que controlam o disparo da câmera, são utilizados para esse fim e estão sujeitos aos efeitos das intempéries desses lugares. Além disso, há um alto custo envolvido com esses equipamentos, sua manutenção e operação. Nesse trabalho é apresentado o TilBOT, uma ferramenta robótica equipada que com uma câmera fotográfica embarcada que vem a atender aos requisitos operacionais associados a configuração, aplicação e custo para obtenção de dados não convencionais do tipo fotografias e vídeos time-lapse e, além de possuir características diferenciais das ferramentas hoje utilizadas para obtenção de dados científicos dessa natureza. Dentre essas novas características se cita a capacidade de utilizar-se do tempo ocioso no processo de captura de imagens para esse tipo de mídia e as novas implementações de mobilidade da ferramenta, com seus vários motores confeccionados para multiposicionamento e de operação da câmera. O TilBOT executa as instruções contidas em um projeto fotográfico que o instrui a movimentar a sua câmera, sendo capaz, com isso, de capturar imagens para a geração de múltiplos vídeos time-lapse a partir de uma mesma coordenada, utilizando-se de um só equipamento, diminuindo a complexidade do processo e reduzindo custos operacionais de obtenção dos dados. Desta feita, o TilBOT é uma ferramenta que facilita a construção de projetos científicos e educacionais que fizerem uso desse tipo de dados não-convencional, no caso, as imagens e os vídeos time-lapse. O TilBOT também pode ser utilizado para a captura de imagens de fotografias digitais avançada para uso em sistemas educacionais, de modo que se possa construir projetos fotográficos com panorâmica horizontal, vertical e 360o imersiva e empilhamento de imagens nas áreas de biologia, geografia e astronomia.

Dissertação

 

Defesa de dissertação (28/03/2019): Flavio Matias Damasceno de Carvalho

Discente: Flavio Matias Damasceno de Carvalho

Título: Desenvolvimento do Dicionário LIWC 2015 em Português do Brasil

Orientadores: Gustavo Paiva Guedes e Silva (orientador)

Banca: Gustavo Paiva Guedes e Silva (CEFET/RJ) (presidente), Eduardo Soares Ogasawara (CEFET/RJ), Joel André Ferreira dos Santos (CEFET/RJ), Lilian Vieira Ferrari (UFRJ)

Dia/Hora: 28 de março / 10h

Sala: Auditório V

Resumo

Uma grande variedade e quantidade de textos são escritos e armazenados em formato digital devido ao desenvolvimento e disseminação de dispositivos computacionais. Dessa grande quantidade de dados textuais, informações úteis podem ser obtidas com técnicas e metodologias da área de Mineração de Texto. Uma dessas metodologias consiste em analisar textos com o Linguistic Inquiry and Word Count, um programa que possui várias versões que foram melhoradas ao longo dos anos. Além de utilizar o arquivo de dicionário padrão, o programa pode utilizar dicionários personalizados ou dicionários traduzidos para outros idiomas. Na utilização com o dicionário traduzido para o português, baseado no dicionário em inglês da versão 2007 do LIWC, as avaliações mostram questões relacionadas ao desempenho da detecção de valência negativa, junto com erros ortográficos e palavras com problemas relacionados à categorização, o que impacta negativamente os resultados obtidos. Desenvolvemos este trabalho observando um aumento no uso desse recurso em estudos acadêmicos nos últimos anos, evidenciado pelo crescente número de citações ao artigo de publicação do dicionário com a tradução para o português. Como não temos conhecimento do desenvolvimento de uma versão mais recente em português e reconhecendo a necessidade de métodos para analisar texto na língua portuguesa, iniciamos o desenvolvimento de uma nova versão em português do dicionário para o LIWC. Trabalhamos com o conjunto de palavras disponíveis na versão de 2015 em inglês e produzimos um novo dicionário compatível com a última versão disponível do programa. Para verificar o desempenho em tarefas de classificação, realizamos experimentos para classificar: (i) autores de textos e (ii) conteúdo das publicações nas redes sociais de acordo com a polaridade do sentimento. As medidas utilizadas para avaliar os resultados obtidos pelos algoritmos de classificação empregados apresentaram valores maiores na nova versão em português do dicionário, comparando com o dicionário atual. Esses experimentos sugerem que o ajuste de palavras a categorias que correspondam adequadamente às características linguísticas e psicológicas permite melhores resultados nas tarefas associadas às áreas de Computação Afetiva e Análise de Sentimentos.

Dissertação

 

Primeiro Workshop para Competição Fórmula Drone SAE Brasil

O primeiro Fórum/Workshop Fórmula Drone será realizado no Campus Maracanã do Centro Federal de Educação Tecnológica Celso Sukow da Fonseca (CEFET/RJ), de 22 a 24 de março de 2019. Ele será organizado pelo prof. João Quadros do PPCIC, pelo prof. Luis Carlos do Amaral (CEFET/RJ) e pelos alunos do Projeto Grupo Robótica do Maracanã.

Mais informações do evento neste link.

Dados após realização do evento neste link. [atualizado]

Defesa de Dissertação (28/02/2019): Ramon Ferreira Silva

Discente: Ramon Ferreira Silva

Título: Refinement of response models to binary questions

Orientadores: Eduardo Bezerra da Silva (orientador), Joel André Ferreira dos Santos (co-orientador)

Banca: Eduardo Bezerra da Silva (Cefet/RJ) (Presidente), Joel André Ferreira dos Santos (CEFET/RJ), Kele Teixeira Belloze (Cefet/RJ), Ronaldo Ribeiro Goldschmidt (Name-RJ)

Dia/Hora: February 28/9h

Sala: Auditorium V

Resumo:

Responses to visual questions (visual Question Answering, RPV) is a task that unites The fields of computer vision and natural language processing (Natural Language Processing, PLN). Taking as inputs an image I and a question in natural language Q about I, a model for RPV should be able to produce a response R (also in natural language) to Q in a coherent way.  A particular type of visual query is That No Which question is binary (i.e., a question whose answer belongs to the set {Yes, not}). Currently, deep neural networks are the technique that corresponds to state of the art for the training of RPV models. Despite its success, the application of neural networks to the RPV task requires a very large amount of data to be able to produce models with adequate accuracy.  The data sets currently used for the training of RPV models are the result of laborious processes of manual labeling (i.e., made by humans).  This context makes it relevant to study approaches to take greater advantage of these datasets during training. This dissertation proposes to investigate approaches to improve the accuracy of the RPV models for binary questions.  In particular, we present reasoned approaches in active learning techniques (active learning) and increased data (data Increase) to take greater advantage of the existing data set during the training phase of an RPV model.

Dissertação

 

Defesa de dissertação (25/02/2019): João Antônio de Ferreira

Discente: João Antônio de Ferreira

Título:  Um framework Algébrico para Workflows de Análise de Dados em Apache Spark

Orientadores: Eduardo Soares Ogasawara (orientador), Rafaelli de Carvalho Coutinho (coorientador)

Banca: Eduardo Soares Ogasawara (CEFET/RJ) (presidente),
Rafaelli de Carvalho Coutinho (CEFET/RJ), Jorge de Abreu Soares (CEFET/RJ), Fabio Andre Machado Porto (LNCC), Leonardo Gresta Paulino Murta (UFF)

Dia/Hora: 25 de fevereiro / 14h

Sala: H522

Resumo:

A atividade típica de um cientista de dados envolve a implementação de diversos processos que caracterizam experimentos de análise de dados, modelados como workflows. Nestas análises há a necessidade de executar diversos códigos em diferentes linguagens de programação (Python, R, C, Java, Kotlin e Scala) em diferentes ambientes de processamento paralelo e distribuído. Dependendo da complexidade do processo e das inúmeras possibilidades para execução distribuída destas soluções, pode ser necessário gastar muita energia em diferentes implementações que podem afastar o cientista de dados do seu objetivo final, que é o de produzir conhecimento a partir dos grandes volumes de dados. Dentro deste contexto, este trabalho visa apoiar na solução de tal dificuldade ao propor a construção do framework WfF, concebido a partir de uma abordagem algébrica que isola a modelagem do processo da dificuldade de executar, de modo otimizado, tais workflows. Também foi criada uma linguagem agnóstica na forma de uma eDSL (Embedded domain-specific language) inspirada nos conceitos da MDA (Model Driven Architecture) para execução de workflow centrado nos dados (dataflow) e um gerador de código Scala para execução no Apache Spark. O uso de UDF (User Defined Functions) escritas em linguagens diversas, regidas por operadores algébricos (funções de segunda ordem da programação funcional) permite processamento otimizado de dados estruturados, semiestruturados e não estruturados ampliando o domínio de aplicações para além do workflow científico, podendo, ser usado em workflows comerciais de análise de dados. As funcionalidades do ecossistema Apache Spark foram avaliadas no processo de otimização da execução de filtros (operador filter) e mapeamentos (operador map) que operam sobre UDF usando a API (Application Program Interface) Catalyst do SparkSQL, e os experimentos apontam a viabilidade desta abordagem.

Dissertação