MINICURSOS

MC1 – Visualização de Dados: Conceitos Fundamentais e Aplicações

Professor: Felipe da Rocha Henriques, D.Sc. – CEFET/RJ

Horário: 23/11 (Terça-feira)  – 9h-12:30h

Resumo: A visualização de dados tem por objetivo gerar insights, de modo que se possa responder a questões acerca de algum fenômeno ou processo de interesse. Um tipo de informação útil que se pode extrair a partir de uma boa visualização de dados é responder a perguntas concretas sobre algum problema. Uma questão quantitativa, obtida através de visualizações, pode ser: “Quais são os valores mínimos, máximos e outliers de uma base de dados?” Por outro lado, visualizações também podem nos trazer respostas a questões qualitativas, tais como: “Dado um exame de imagem de um paciente, existe alguma anomalia que pode indicar algum problema clínico?” Nesse sentido, pode-se compreender a visualização de dados como um processo de exploração interativa, que começa a partir de um conjunto (ou base) de dados. Esses dados são usados como entrada para uma aplicação de visualização, que gera como saída uma imagem a ser observada por um usuário final. O usuário pode interagir com a aplicação, de modo a refinar a imagem gerada, alterando-se parâmetros, cores, zoom, criando assim um processo retroalimentado de interação-visualização-observação. Diante dese contexto, este minicurso terá como objetivo apresentar o processo de visualização de dados, seus conceitos fundamentais e algumas de suas inúmeras aplicações que podem ser encontradas na literatura e na indústria atualmente. O minicurso será dividido em três partes: (i) iniciaremos apresentando aspectos históricos da visualização de dados, remetendo ao estatístico John Tukey, seguindo com os principais fundamentos do processo de visualização, que parte dos dados e retorna a eles de maneira interativa. Apresentaremos as formas mais comuns de visualizações, suas vantagens e limitações, de acordo com o tipo de dado que se está analisando. De maneira complementar, discutiremos como é possível “contar uma história” a partir dos dados e das visualizações, destacando conceitos da Gestalt e como eles podem ser usados para “prender a atenção” do público; (ii) na segunda parte do curso, apresentaremos a relação entre a construção de visualizações e a Computação Gráfica, chegando até mesmo a aspectos artísticos e estéticos das visualizações; (iii) por fim, algumas aplicações de visualização como ferramenta de suporte à análise e ciência de dados serão discutidas, incluindo as ferramentas e plataformas mais comuns utilizadas nessa área importante da computação.

MC2 – Proveniência de Dados

Professor: Troy Kohwalter, D.Sc. – UFF

Horário: 23/11 (Terça-feira)  – 9h-12:30h

Resumo:  Proveniência de dados é a documentação de onde um dado vem e todos os processos e metodologias utilizados para produzir o dado. A proveniência não é um conceito novo, ela já tem sido usada no contexto da arte para documentar a história de uma obra de arte e em bibliotecas digitais para documentar o ciclo de vida de um objeto digital. Registrar a proveniência dos dados é importante para confirmar a autenticidade dos dados e permitir que eles sejam reutilizados, sendo assim importantes para a confiança dos dados, credibilidade e reprodutibilidade. Ou seja, a proveniência nos permite responder perguntas como por que e como os dados foram produzidos, onde, quando e por quem. Perguntas que hoje em dia estão sendo cada vez mais importante para a comunidade científica para autenticar, reproduzir ou melhor entender resultados experimentais. Nesse curso iremos ver os conceitos básicos de proveniência e algumas ferramentas e aplicações que fazem uso da proveniência de dados.

MC3 – Introdução a Ciência de Dados no Esporte

Professor: Lucas Giusti, M.Sc. – Shape

Horário: 24/11 (Terça-feira)  – 9h-12:30h

Resumo: No esporte, assim como em diversas outras áreas, a Ciência de Dados é uma ferramenta que pode fazer a diferença no desempenho e na geração de receitas. Sendo assim, o objetivo desse curso é introduzir conceitos abstratos fundamentais para a aplicação de Ciência de Dados no esporte, bem como diversos casos de sucesso em diferentes modalidades.

MC4 – Introdução ao processamento paralelo e distribuído utilizando o Apache Spark

Professor: Fernando de Sá, M.Sc. – IDADOS

Horário: 24/11 (Quarta-feira)  – 9h-12:30h

Resumo: A escala de produção e disseminação de dados alcançou um patamar que exige a adoção de ferramentas de processamento sofisticadas e eficientes. O Apache Spark e um poderoso framework que suporta o eficiente paradigma MapReduce e estende as funcionalidades do Apache Hadoop para a criação de um ambiente de processamento paralelo e distribuído unificado e robusto para o processamento de grandes e complexos conjuntos de dados.O minicurso proposto inicia com a discussão das vantagens proporcionadas pela utilização de um framework como o Apache Spark para a criação de soluções em diferentes áreas. Prosseguindo com a apresentação da ferramenta, sua utilização e implementação.