Ementa
Mineração de Dados. Processo de Descoberta de Conhecimento em Bases de Dados (KDD). Análise exploratória de dados. Pré-processamento e qualidade de dados. Mineração de padrões frequentes e sequenciais. Técnicas de agrupamento. Modelagem preditiva por classificação e regressão. Arquiteturas analíticas para suporte à mineração de dados, incluindo data warehouses, data lakes e OLAP. Aspectos éticos, de privacidade e responsabilidade no uso de técnicas de mineração de dados..
Objetivos
Fundamentar os conhecimentos indispensáveis à extração sistemática de conhecimento a partir de grandes volumes de dados, com foco no processo de Descoberta de Conhecimento em Bases de Dados. Para isso, é realizado um estudo detalhado das etapas do KDD, desde a compreensão do domínio e o pré-processamento dos dados até a aplicação, avaliação e interpretação de modelos de mineração. O curso visa proporcionar um sólido embasamento teórico aliado à prática com ferramentas computacionais modernas, capacitando o aluno a selecionar, aplicar e analisar técnicas de mineração de dados em diferentes contextos, bem como a compreender limitações, impactos e implicações éticas associadas ao uso dessas técnicas em cenários reais e multidisciplinares.
Slides
- Introdução à Mineração de Dados – Visão geral do curso e do papel da metodologia científica na mineração de dados. PDF
- Fundamentos da Linguagem R – Fundamentos da linguagem R e ferramentas necessárias para análises reprodutíveis. PDF | Código: examples/02-R-Basics.md
- Visualização de Dados – Princípios e exemplos de visualização de dados para explorar padrões iniciais. PDF | Código: examples/03-DataVisualization.md
- Análise Exploratória de Dados – Estratégias de análise exploratória para entender distribuições, correlações e outliers. PDF | Código: examples/04-ExploratoryAnalysis.md
- Pré-processamento de Dados Fundamentos – Técnicas de limpeza, normalização e preparação dos dados antes da modelagem. PDF | Código: examples/05-DataPreprocessing.md
- Mineração de Padrões – Descoberta de padrões frequentes e regras de associação em conjuntos de dados. PDF | Código: examples/06-PatternMining.md
- Classificação – Introdução e Fundamentos – Modelos supervisionados para classificação e avaliação de desempenho preditivo. PDF | Código: examples/07-Classification.md
- Classificação – Conceitos Avançados – Uma exploração abrangente dos conceitos fundamentais de classificação em ciência de dados e aprendizado de máquina. PDF | Código: examples/08-Classification-Advanced.md
- Regressão – Fundamentos – Uma introdução clara aos fundamentos da análise de regressão, explorando os conceitos essenciais, tipos de modelos e aplicações práticas na ciência de dados. PDF | Código: examples/09-Regression.md
- Clustering – Fundamentos – Métodos de agrupamento não supervisionado para encontrar estruturas naturais nos dados. PDF | Código: examples/10-Clustering.md
- Outliers – Uma introdução abrangente aos conceitos, tipos e desafios na detecção de anomalias em dados. PDF
- Gestão de Dados – Bem-vindo ao mundo da gestão de dados empresariais, onde informações estratégicas impulsionam decisões inteligentes e transformam negócios. PDF
- Deep Learning: Visão Geral – Deep Learning representa o aprendizado com redes neurais profundas, onde a característica central é o aprendizado automático de representações. PDF
DAL Toolbox (visão prática)
- DAL Toolbox – Visão prática das ferramentas do DAL Toolbox. PDF
- DAL Toolbox – Visão prática de pré-processamento de dados com o DAL Toolbox. PDF
Repositório
https://github.com/eogasawara/datamining
Playlist
Ferramentas
DAL Toolbox: https://cefet-rj-dal.github.io/daltoolbox/
Harbinger: https://cefet-rj-dal.github.io/harbinger/
TSPredIT: https://cefet-rj-dal.github.io/tspredit/
Bibliografia Básica
- HAN, Jiawei; KAMBER, Micheline; PEI, Jian. Data mining: concepts and techniques. 4. ed. Cambridge, MA: Morgan Kaufmann, 2022.
- JAMES, Gareth; WITTEN, Daniela; HASTIE, Trevor; TIBSHIRANI, Robert. An introduction to statistical learning: with applications in R. 2. ed. New York: Springer, 2021.
- Escovedo, T.; Koshiyama, A. Introdução a Data Science: Algoritmos de Machine Learning e métodos de análise. Casa do Código, 2020.
Bibliografia Complementar
- BISHOP, C. M.; Bishop, H. Deep Learning: Foundations and Concepts. Springer Nature, 2023.
- BRAMER, M. Principles of Data Mining. Springer London, 2020.
- GARCIA, S.; LUENGO, J.; HERRERA, F. Data Preprocessing in Data Mining. Springer, 2014.
- GOLDSCHMIDT, R.; PASSOS, E.; BEZERRA, E. Data Mining. Elsevier Brasil, 2015.