Seminário


Análise Online de Grandes Volumes de Dados (e Pequenos também!)


Palestrante(s): Daniel Cardoso Moraes de Oliveira

Local: Canal no Youtube "PPCIC CEFET-RJ"

Data: 15/06/2021 às 19:30

Tópico(s): Análise de Dados BigData


Canal no Youtube "PPCIC CEFET/RJ"

 

Resumo: Áreas estratégicas para o desenvolvimento do Brasil, como as da área de petróleo, meteorologia e biologia, são altamente dependentes do uso de simulações computacionais. Apesar dessas simulações poderem ser implementadas em programas monolíticos, a grande maioria é caracterizada pelo encadeamento de programas que executam modelos computacionais cada vez mais complexos (i.e., dataflows). Esses dataflows são frequentemente modelados e executados tanto por meio de scripts quanto de abstrações como workflows científicos. Por se tratarem de simulações de larga escala, as mesmas comumente consomem e produzem um grande volume de dados. Devido à esse volume, o processamento requer o uso de paralelismo e ambientes de Computação de Alto Desempenho (HPC). A convergência entre HPC e as tarefas de processamento e análise de dados científicos associados a esses dataflows tem se dado basicamente pelo uso de Ambientes de Computação em Escalável e Intensiva em Dados (do inglês DISC - Data Intensive Scalable Computing). A convergência entre HPC e DISC é um tópico bastante recente de interesse da comunidade científica. Enquanto ambientes HPC concentram-se no alto desempenho das simulações, geralmente utilizando supercomputadores, os ambientes DISC são orientados a dados e são formados por clusters de máquinas de hardware comum. Exemplos de frameworks DISC incluem o Apache Spark e o Apache Hadoop. A implementação e execução de dataflows em ambientes DISC traz uma série de desafios que estão relacionados com a gerência de recursos em larga escala. Muitas vezes para que a simulação atinja a capacidade de processamento necessária para terminar em tempo hábil, é necessário que se utilize uma série de recursos heterogêneos como CPUs em um cluster e/ou GPGPUs. O uso de ambientes DISC requer novas soluções de fragmentação de dados e tarefas das simulações, de escalonamento, e principalmente de gerência e análise de dados produzidos. Essa palestra apresenta algumas abordagens desenvolvidas na minha pesquisa com o objetivo de fornecer apoio a análises de dados científicos.
 
 
Biografia: Daniel de Oliveira é professor do Instituto de Computação da Universidade Federal Fluminense (IC/UFF) desde fevereiro de 2013. Recebeu o grau de Doutor em Engenharia de Sistemas e Computação pela COPPE/UFRJ em 2012 e o de Mestre em Engenharia de Sistemas e Computação em 2008, também pela COPPE/UFRJ. É bolsista de produtividade nível 2 do CNPq desde 2016 e Jovem Cientista do Nosso Estado da FAPERJ também desde 2016. Seus interesses de pesquisa incluem ciência de dados, computação em nuvem, gerência de dados de proveniência, gerência de workflows científicos, paralelismo de dados e bioinformática. Publicou mais de 150 artigos em periódicos indexados e em congressos nacionais e internacionais. Vem participando de Comitês de Programa de congressos nacionais e internacionais como o VLDB e o SBBD além de ser revisor ad-hoc de revistas nacionais e internacionais. Já coordenou/coordena diversos projetos de pesquisa aprovados por órgãos de fomento. Publicou o livro "Data-Intensive Workflow Management for Clouds and Data-Intensive and Scalable Computing Environments" publicado pela Morgan & Claypool em 2019. Foi chair do comitê de programa do SBBD'2020 (vice-chair), BreSci'14, BreSci'19, WPerformance'16, SBBD Demos'17, BSB'18 e BSB'19. Atualmente é coordenador da Comissão Especial de Biologia Computacional (CE-BioComp) da Sociedade Brasileira de Computação (mandato 2021-2022).