Gerência, Integração e Workflows em Big Data

Cada vez mais, organizações buscam analisar o crescente número de dados disponíveis para desenvolver ações que tragam vantagem competitiva e destaque no seu ramo de atuação. Este processo abrange desde a correta coleta e armazenamento dos dados até a integração deles com as informações obtidas na Web. Os dados estão associados ao planejamento, gestão e atuação da organização, e podem ser estruturados, semiestruturados e não-estruturados. Assim, há a necessidade do tratamento, transformando-os em informação e conhecimento.

Com o intuito de auxiliar esse processo de forma significativa, este projeto analisa diferentes oportunidades de pesquisa. Primeiro, destaca-se a necessidade de se processar grandes volumes de dados heterogêneos de maneira paralela e distribuída. Este é um cenário típico em grandes projetos de diversas áreas do conhecimento, como bioinformática, astronomia, engenharias e medicina, onde os workflows têm sido amplamente adotados. Muitos destes workflows são de larga escala e exigem ambientes de computação de alto desempenho (como clusters, supercomputadores e nuvens de computadores) e técnicas de paralelismo para executá-lo em um tempo viável. Além destes ambientes, nos últimos anos, tem-se observado o uso frequente de frameworks de computação em larga escala centrados a dados (Data Intensive Scalable Computing), como o Apache Spark, que fornece processamento eficiente em memória. Um dos objetivos deste projeto é elaborar workflows para a gerência e análise de dados em larga escala usando esses frameworks e otimizar as suas execuções em ambientes paralelos e distribuídos. Por fim, objetiva-se também o estudo de técnicas de modelagem conceitual com workflows e ontologias aplicadas a Big Data, e de pré-processamento, indexação e consulta em Big Data, incluindo abordagens baseadas em sistemas de armazenamento distribuídos (HDFS), sistemas gerenciadores de bancos de dados relacional-objeto, NoSQL e newSQL.

Docentes Envolvidos:

  • Eduardo Ogasawara
  • Jorge Soares
  •  Kele Belloze
  • Rafaelli Coutinho (Responsável)

Parcerias internacionais:

  •  Esther Pacitti (INRIA)
  •  Patrick Valduriez (INRIA)

Fomento:

  1. Edital FAPERJ Auxílio instalação, projeto “Paralelização de Workflows Científicos para Apoiar Aplicações de e-Science”, no período 2012-2013, com coordenação do docente Eduardo Ogasawara. Valor financiado: R$4.650,00;
  2. Edital FAPERJ ARC, projeto “Infraestrutura de Dimensionamento de Máquinas Virtuais em Nuvens Computacionais” no período 2016-Atual, com coordenação da docente Rafaelli Coutinho. Valor financiado: R$ 9.000,00.
  3. Apoio Emergencial a Programas de Pós-graduação do Rio de Janeiro, no período 2017-2019, com coordenação do docente Eduardo Ogasawara. Valor financiado: R$45.000,00.
  4. Edital Apoio APP-CAMPI do CEFET/RJ, “, projetos “Provisionamento de uma Infraestrutura de Nuvem de Computadores Interna aplicada a Projetos de Engenharia”,   “Rumo a um Framework Computacional baseado em Nuvem para Ciência de Dados em Produção Energética”, “Offloading em Fog Computing para Aplicações Inteligentes, Autônomas e de IoT”, no período 2017-Atual, com coordenação da docente Rafaelli Coutinho. Valores financiados: R$ 31.000,00 (2017), R$ 42.750,00 (2018) e R$ 49.000,00 (2019).
  5. Edital Meninas nas Ciências Exatas, Engenharias e Computação CNPq/MCTIC nº 31/2018, projeto “Meninas na Robótica” no período 2019-Atual, com coordenação da docente Rafaelli Coutinho. Valor financiado R$ 90.277,90;
  6. Bolsas PIBIC.

Esses projetos estão em desenvolvimento pelos membros do grupo desde 2012 e totalizam um valor de financiamento de aproximadamente R$ 271.677,90.