DAL Toolbox é um framework para análise de dados inspirado no modelo de Experiment Lines. O pacote organiza, em um ambiente integrado, atividades de pré-processamento, classificação, regressão, agrupamento, análise gráfica e construção de pipelines analíticos reprodutíveis. Na versão atual do pacote, 1.3.727, a documentação foi reorganizada para apoiar uma trilha de aprendizado guiada e coleções temáticas mais didáticas.
Organização didática
O material do daltoolbox passou a ser organizado em duas portas de entrada complementares. A primeira é uma trilha guiada, indicada para quem deseja aprender o fluxo de um experimento analítico passo a passo. A segunda é composta por coleções temáticas, voltadas a quem quer estudar famílias específicas de transformações, modelos e visualizações.
Essa organização reforça a proposta central do framework: análise de dados não deve ser tratada como uma sequência solta de funções isoladas, mas como um workflow coerente que integra preparação dos dados, modelagem, avaliação, comparação de modelos, visualização e extensão do ambiente.
Etapas e métodos disponíveis
- Transformações:
amostragem, limpeza de dados, tratamento de outliers, escalonamento, codificação categórica, discretização, balanceamento, seleção de atributos, redução de dimensionalidade e heurísticas baseadas em curvatura. - Classificação:
baselines, árvores de decisão, métodos baseados em instâncias, modelos probabilísticos, ensembles, máquinas de vetor de suporte, redes neurais e seleção de hiperparâmetros. - Regressão:
modelos interpretáveis, métodos baseados em vizinhança, ensembles, regressão por margens, redes neurais e ajuste de hiperparâmetros. - Agrupamento:
métodos particionais, baseados em medoids, abordagens baseadas em densidade e seleção de modelos em cenários não supervisionados. - Gráficos:
visualizações para comparação de categorias, análise de distribuição, relações entre variáveis, séries temporais e exportação de figuras para relatórios. - Customização:
integração de novas transformações, classificadores, regressores e métodos de agrupamento preservando o contrato do framework. - Integração e extensibilidade:
suporte à integração com bibliotecas externas e uso complementar de ecossistemas como Python quando necessário.
Arquitetura
A arquitetura do daltoolbox foi construída para manter estável o ciclo experimental de dividir, ajustar, predizer, avaliar e comparar, independentemente da família de método utilizada. Com um modelo uniforme de dados e uma API consistente, o framework facilita reprodutibilidade, extensibilidade e integração entre diferentes etapas do processo analítico.
Instalação
A versão estável do DAL Toolbox no CRAN está disponível em: https://CRAN.R-project.org/package=daltoolbox
Para instalar a versão estável do CRAN:
install.packages("daltoolbox")
Para instalar a versão em desenvolvimento diretamente do GitHub:
library(devtools)
devtools::install_github("cefet-rj-dal/daltoolbox", force = TRUE, dependencies = FALSE, upgrade = "never")
Documentação e exemplos
Os exemplos do daltoolbox estão organizados em trilha guiada e em coleções temáticas de transformações, classificação, regressão, agrupamento, gráficos e customização:
https://github.com/cefet-rj-dal/daltoolbox/tree/main/examples
Trilha guiada
A trilha guiada atual cobre a lógica completa de um experimento analítico: primeiro experimento, estratégias de amostragem, qualidade e limpeza de dados, pré-processamento, baselines, métricas, comparação de modelos, tuning, pipelines fim a fim, regressão, agrupamento, análise visual e extensão customizada do framework.
Material complementar
Além dos exemplos temáticos, o daltoolbox serve de base conceitual e arquitetural para outros frameworks do ecossistema DAL, como tspredit e harbinger, oferecendo a infraestrutura comum para organização de workflows analíticos reprodutíveis.
https://cefet-rj-dal.github.io/daltoolbox/