Gerência, Integração e Workflows em Big Data
Cada vez mais, organizações buscam analisar o crescente número de dados disponíveis para desenvolver ações que tragam vantagem competitiva e destaque no seu ramo de atuação. Este processo abrange desde a correta coleta e armazenamento dos dados até a integração deles com as informações obtidas na Web. Os dados estão associados ao planejamento, gestão e atuação da organização, e podem ser estruturados, semiestruturados e não-estruturados. Assim, há a necessidade do tratamento, transformando-os em informação e conhecimento.
Com o intuito de auxiliar esse processo de forma significativa, este projeto analisa diferentes oportunidades de pesquisa. Primeiro, destaca-se a necessidade de se processar grandes volumes de dados heterogêneos de maneira paralela e distribuída. Este é um cenário típico em grandes projetos de diversas áreas do conhecimento, como bioinformática, astronomia, engenharias e medicina, onde os workflows têm sido amplamente adotados. Muitos destes workflows são de larga escala e exigem ambientes de computação de alto desempenho (como clusters, supercomputadores e nuvens de computadores) e técnicas de paralelismo para executá-lo em um tempo viável. Além destes ambientes, nos últimos anos, tem-se observado o uso frequente de frameworks de computação em larga escala centrados a dados (Data Intensive Scalable Computing), como o Apache Spark, que fornece processamento eficiente em memória. Um dos objetivos deste projeto é elaborar workflows para a gerência e análise de dados em larga escala usando esses frameworks e otimizar as suas execuções em ambientes paralelos e distribuídos. Por fim, objetiva-se também o estudo de técnicas de modelagem conceitual com workflows e ontologias aplicadas a Big Data, e de pré-processamento, indexação e consulta em Big Data, incluindo abordagens baseadas em sistemas de armazenamento distribuídos (HDFS), sistemas gerenciadores de bancos de dados relacional-objeto, NoSQL e newSQL.
Docentes Envolvidos:
- Eduardo Ogasawara
- Jorge Soares
- Kele Belloze
- Rafaelli Coutinho (Responsável)
Parcerias internacionais:
- Esther Pacitti (INRIA)
- Patrick Valduriez (INRIA)
Fomento:
- Edital FAPERJ Auxílio instalação, projeto “Paralelização de Workflows Científicos para Apoiar Aplicações de e-Science”, no período 2012-2013, com coordenação do docente Eduardo Ogasawara. Valor financiado: R$4.650,00;
- Edital FAPERJ ARC, projeto “Infraestrutura de Dimensionamento de Máquinas Virtuais em Nuvens Computacionais” no período 2016-Atual, com coordenação da docente Rafaelli Coutinho. Valor financiado: R$ 9.000,00.
- Apoio Emergencial a Programas de Pós-graduação do Rio de Janeiro, no período 2017-2019, com coordenação do docente Eduardo Ogasawara. Valor financiado: R$45.000,00.
- Edital Apoio APP-CAMPI do CEFET/RJ, “, projetos “Provisionamento de uma Infraestrutura de Nuvem de Computadores Interna aplicada a Projetos de Engenharia”, “Rumo a um Framework Computacional baseado em Nuvem para Ciência de Dados em Produção Energética”, “Offloading em Fog Computing para Aplicações Inteligentes, Autônomas e de IoT”, no período 2017-Atual, com coordenação da docente Rafaelli Coutinho. Valores financiados: R$ 31.000,00 (2017), R$ 42.750,00 (2018) e R$ 49.000,00 (2019).
- Edital Meninas nas Ciências Exatas, Engenharias e Computação CNPq/MCTIC nº 31/2018, projeto “Meninas na Robótica” no período 2019-Atual, com coordenação da docente Rafaelli Coutinho. Valor financiado R$ 90.277,90;
- Bolsas PIBIC.
Esses projetos estão em desenvolvimento pelos membros do grupo desde 2012 e totalizam um valor de financiamento de aproximadamente R$ 271.677,90.