Ementa

Mineração de Dados. Processo de Descoberta de Conhecimento em Bases de Dados (KDD). Análise exploratória de dados. Pré-processamento e qualidade de dados. Mineração de padrões frequentes e sequenciais. Técnicas de agrupamento. Modelagem preditiva por classificação e regressão. Arquiteturas analíticas para suporte à mineração de dados, incluindo data warehouses, data lakes e OLAP. Aspectos éticos, de privacidade e responsabilidade no uso de técnicas de mineração de dados..

Objetivos

Fundamentar os conhecimentos indispensáveis à extração sistemática de conhecimento a partir de grandes volumes de dados, com foco no processo de Descoberta de Conhecimento em Bases de Dados. Para isso, é realizado um estudo detalhado das etapas do KDD, desde a compreensão do domínio e o pré-processamento dos dados até a aplicação, avaliação e interpretação de modelos de mineração. O curso visa proporcionar um sólido embasamento teórico aliado à prática com ferramentas computacionais modernas, capacitando o aluno a selecionar, aplicar e analisar técnicas de mineração de dados em diferentes contextos, bem como a compreender limitações, impactos e implicações éticas associadas ao uso dessas técnicas em cenários reais e multidisciplinares.

 


 

Slides

  1. Introdução à Mineração de Dados – Visão geral do curso e do papel da metodologia científica na mineração de dados. PDF
  2. Fundamentos da Linguagem R – Fundamentos da linguagem R e ferramentas necessárias para análises reprodutíveis. PDF | Código: examples/02-R-Basics.md
  3. Visualização de Dados – Princípios e exemplos de visualização de dados para explorar padrões iniciais. PDF | Código: examples/03-DataVisualization.md
  4. Análise Exploratória de Dados – Estratégias de análise exploratória para entender distribuições, correlações e outliers. PDF | Código: examples/04-ExploratoryAnalysis.md
  5. Pré-processamento de Dados Fundamentos – Técnicas de limpeza, normalização e preparação dos dados antes da modelagem. PDF | Código: examples/05-DataPreprocessing.md
  6. Mineração de Padrões – Descoberta de padrões frequentes e regras de associação em conjuntos de dados. PDF | Código: examples/06-PatternMining.md
  7. Classificação – Introdução e Fundamentos – Modelos supervisionados para classificação e avaliação de desempenho preditivo. PDF | Código: examples/07-Classification.md
  8. Classificação – Conceitos Avançados – Uma exploração abrangente dos conceitos fundamentais de classificação em ciência de dados e aprendizado de máquina. PDF | Código: examples/08-Classification-Advanced.md
  9. Regressão – Fundamentos – Uma introdução clara aos fundamentos da análise de regressão, explorando os conceitos essenciais, tipos de modelos e aplicações práticas na ciência de dados. PDF | Código: examples/09-Regression.md
  10. Clustering – Fundamentos – Métodos de agrupamento não supervisionado para encontrar estruturas naturais nos dados. PDF | Código: examples/10-Clustering.md
  11. Outliers – Uma introdução abrangente aos conceitos, tipos e desafios na detecção de anomalias em dados. PDF
  12. Gestão de Dados – Bem-vindo ao mundo da gestão de dados empresariais, onde informações estratégicas impulsionam decisões inteligentes e transformam negócios. PDF
  13. Deep Learning: Visão Geral – Deep Learning representa o aprendizado com redes neurais profundas, onde a característica central é o aprendizado automático de representações. PDF

DAL Toolbox (visão prática)

  1. DAL Toolbox – Visão prática das ferramentas do DAL Toolbox. PDF
  2. DAL Toolbox – Visão prática de pré-processamento de dados com o DAL Toolbox. PDF

Repositório

https://github.com/eogasawara/datamining

 


Playlist

 

 


 

Ferramentas

DAL Toolbox: https://cefet-rj-dal.github.io/daltoolbox/

Harbinger: https://cefet-rj-dal.github.io/harbinger/

TSPredIT: https://cefet-rj-dal.github.io/tspredit/

 


 

Bibliografia Básica

  1. HAN, Jiawei; KAMBER, Micheline; PEI, Jian. Data mining: concepts and techniques. 4. ed. Cambridge, MA: Morgan Kaufmann, 2022.
  2. JAMES, Gareth; WITTEN, Daniela; HASTIE, Trevor; TIBSHIRANI, Robert. An introduction to statistical learning: with applications in R. 2. ed. New York: Springer, 2021.
  3. Escovedo, T.; Koshiyama, A. Introdução a Data Science: Algoritmos de Machine Learning e métodos de análise. Casa do Código, 2020.

Bibliografia Complementar

  1. BISHOP, C. M.; Bishop, H. Deep Learning: Foundations and Concepts. Springer Nature, 2023.
  2. BRAMER, M. Principles of Data Mining. Springer London, 2020.
  3. GARCIA, S.; LUENGO, J.; HERRERA, F. Data Preprocessing in Data Mining. Springer, 2014.
  4. GOLDSCHMIDT, R.; PASSOS, E.; BEZERRA, E. Data Mining. Elsevier Brasil, 2015.