Gerência, Integração e Workflows em Big Data

Cada vez mais, organizações buscam analisar o crescente número de dados disponíveis para desenvolver ações que tragam vantagem competitiva e destaque no seu ramo de atuação. Este processo abrange desde a correta coleta e armazenamento dos dados até a integração deles com as informações obtidas na Web.  Os dados estão associados ao planejamento, gestão e atuação da organização, e podem ser estruturados, semiestruturados e não-estruturados. Assim, há a necessidade do tratamento, transformando-os em informação e conhecimento.

Com o intuito de auxiliar esse processo de forma significativa, este projeto analisa diferentes oportunidades de pesquisa.  Primeiro, destaca-se a necessidade de se processar grandes volumes de dados heterogêneos de maneira paralela e distribuída. Este é um cenário típico em grandes projetos de diversas áreas do conhecimento, como bioinformática, astronomia, engenharias e medicina, onde os workflows têm sido amplamente adotados. Muitos destes workflows são de larga escala e exigem ambientes de computação de alto desempenho (como clusters, supercomputadores e nuvens de computadores) e técnicas de paralelismo para executá-lo em um tempo viável. Além destes ambientes, nos últimos anos, tem-se observado o uso frequente de frameworks de computação em larga escala centrados a dados (Data Intensive Scalable Computing), como o Apache Spark, que fornece processamento eficiente em memória. Um dos objetivos deste projeto é elaborar workflows para a gerência e análise de dados em larga escala usando esses frameworks e otimizar as suas execuções em ambientes paralelos e distribuídos. Por fim, objetiva-se também o estudo de técnicas de modelagem conceitual com workflows e ontologias aplicadas a Big Data, e de pré-processamento, indexação e consulta em Big Data, incluindo abordagens baseadas em sistemas de armazenamento distribuídos (HDFS), sistemas gerenciadores de bancos de dados relacional-objeto, NoSQL e newSQL.

Docentes Envolvidos

  • Eduardo Ogasawara (Responsável)
  • Jorge Soares
  • Kele Belloze
  • Rafaelli Coutinho

Fomento

  1. Edital FAPERJ Auxilio instalação, projeto “Paralelização de Workflows Científicos para Apoiar Aplicações de e-Science”, no período 2012-2013, com coordenação do docente Eduardo Ogasawara;
  2. INCT de Ciência de Dados, que teve o mérito aprovado na Chamada INCT – MCTI/CNPq/CAPES/FAPs no. 16/2014, do qual o CEFET/RJ participa como laboratório associado e sob a coordenação dos pesquisadores Artur Ziviani e Fabio Porto;
  3. Edital CEFET/RJ Grupos de Pesquisa, no período 2016-2019, com coordenação do docente Eduardo Ogasawara;
  4. Edital Fiocruz Geração de conhecimento, no período 2019-2021, com participação da docente Kele Belloze;
  5. Edital CEFET/RJ Apoio a Projeto de Pesquisa Institucional, no período 2017-2020, com coordenação da docente Rafaelli Coutinho;
  6. Edital FAPERJ ARC, no período 2016-Atual, com coordenação da docente Rafaelli Coutinho;
  7. Edital Meninas nas Ciências Exatas, Engenharias e Computação CNPq/MCTIC nº 31/2018, no período 2019-2020, com coordenação da docente Rafaelli Coutinho;
  8. Bolsas PIBIC, no período 2017-2018.

Esses projetos estão em desenvolvimento pelos membros do grupo desde 2012 e totalizam um valor de financiamento de aproximadamente R$ 154.000,00.

Comments are closed.